#大模型

AI代码能力的天花板，比你想象的低得多

ProgramBench 基准测试显示所有主流大模型在系统级代码生成任务上得分全部为 0%，这揭示了当前 AI 编程能力的真实边界。

1 / 1