2026-05-07AI编程代码生成ProgramBench大模型AI代码能力的天花板,比你想象的低得多ProgramBench 基准测试显示所有主流大模型在系统级代码生成任务上得分全部为 0%,这揭示了当前 AI 编程能力的真实边界。Read More