据报道,Anthropic 正通过一项代号为 “Marlin” 的计划,大规模引入真实软件工程师参与 Claude Code 的训练与评估。该项目由数据公司协助执行,参与人数约 1000 名工程师,主要目标并非单纯提高模型“写代码”的能力,而是让其输出更符合真实软件工程要求的代码,包括稳定性、安全性、可维护性以及对复杂项目结构的理解。部分参与者的时薪最高可达 280 美元

与传统的数据标注不同,Marlin 更接近真实开发环境。工程师会从开源项目中抽取实际任务,例如功能开发、Bug 修复、代码重构、安全漏洞处理等,然后交给 Claude Code 完成。之后,再由工程师对模型产出的多个方案进行对比,判断哪一种实现更合理,是否遵循项目规范,是否存在潜在风险,以及代码质量是否达到可上线标准。其评估标准不再只是“能运行”,而是强调长期维护成本和工程可靠性。

报道称,Claude Code 的训练任务覆盖范围较广,既包括常规代码补全,也涉及复杂工程问题。例如,一些任务要求模型在保持功能行为不变的前提下,对代码结构进行重新组织和优化;还有任务围绕安全漏洞修复展开,需要模型既修复风险,又避免对现有系统造成误伤。这类任务对上下文理解、系统设计意识和工程经验提出了更高要求,也意味着 AI 编程正在从“写出代码”逐步走向“参与工程开发”。

不过,用户反馈显示,Claude Code 在复杂项目中的表现仍存在明显问题。一些长期使用者表示,相比早期版本,模型近期在执行任务时的“研究过程”明显减少——例如,在修改代码之前,读取和分析相关文件的次数下降,更容易在未充分理解项目结构的情况下直接修改代码。这导致一些输出出现偏差,包括忽略已有约定、重复实现已有逻辑、误改现有功能,甚至影响整体代码结构。

还有开发者指出,Claude Code 在复杂需求中有时会倾向于给出“最简单的解决方案”,但这些方案并不一定符合真实业务要求。某些情况下,模型会提前结束任务,或者错误判断问题已解决,需要人工进一步检查与修复。因此,部分团队开始采用“AI 写代码 + 人类审核 + 其他工具复查”的方式,以降低风险。

报道认为,这一现象反映出当前 AI 编程发展的现实矛盾:虽然模型生成代码的效率越来越高,但真正的软件开发不仅是代码生成,还涉及复杂上下文理解、架构一致性、团队规范、安全控制以及长期维护能力。在基础设施、生产系统等关键场景中,代码是否“可信”往往比“写得快”更重要。Anthropic 大规模聘请工程师训练 Claude Code,本质上也是在尝试将真实开发经验反馈给模型,弥补 AI 在工程实践中的不足。