Anthropic 被曝雇 1000 名人类工程师“培训”Claude Code，时薪 280 美元：AI 编程越进化越离不开真人兜底

据报道，Anthropic 正通过一项代号为 “Marlin” 的计划，大规模引入真实软件工程师参与 Claude Code 的训练与评估。该项目由数据公司协助执行，参与人数约 1000 名工程师，主要目标并非单纯提高模型“写代码”的能力，而是让其输出更符合真实软件工程要求的代码，包括稳定性、安全性、可维护性以及对复杂项目结构的理解。部分参与者的时薪最高可达 280 美元。

与传统的数据标注不同，Marlin 更接近真实开发环境。工程师会从开源项目中抽取实际任务，例如功能开发、Bug 修复、代码重构、安全漏洞处理等，然后交给 Claude Code 完成。之后，再由工程师对模型产出的多个方案进行对比，判断哪一种实现更合理，是否遵循项目规范，是否存在潜在风险，以及代码质量是否达到可上线标准。其评估标准不再只是“能运行”，而是强调长期维护成本和工程可靠性。

报道称，Claude Code 的训练任务覆盖范围较广，既包括常规代码补全，也涉及复杂工程问题。例如，一些任务要求模型在保持功能行为不变的前提下，对代码结构进行重新组织和优化；还有任务围绕安全漏洞修复展开，需要模型既修复风险，又避免对现有系统造成误伤。这类任务对上下文理解、系统设计意识和工程经验提出了更高要求，也意味着 AI 编程正在从“写出代码”逐步走向“参与工程开发”。

不过，用户反馈显示，Claude Code 在复杂项目中的表现仍存在明显问题。一些长期使用者表示，相比早期版本，模型近期在执行任务时的“研究过程”明显减少——例如，在修改代码之前，读取和分析相关文件的次数下降，更容易在未充分理解项目结构的情况下直接修改代码。这导致一些输出出现偏差，包括忽略已有约定、重复实现已有逻辑、误改现有功能，甚至影响整体代码结构。

还有开发者指出，Claude Code 在复杂需求中有时会倾向于给出“最简单的解决方案”，但这些方案并不一定符合真实业务要求。某些情况下，模型会提前结束任务，或者错误判断问题已解决，需要人工进一步检查与修复。因此，部分团队开始采用“AI 写代码 + 人类审核 + 其他工具复查”的方式，以降低风险。

报道认为，这一现象反映出当前 AI 编程发展的现实矛盾：虽然模型生成代码的效率越来越高，但真正的软件开发不仅是代码生成，还涉及复杂上下文理解、架构一致性、团队规范、安全控制以及长期维护能力。在基础设施、生产系统等关键场景中，代码是否“可信”往往比“写得快”更重要。Anthropic 大规模聘请工程师训练 Claude Code，本质上也是在尝试将真实开发经验反馈给模型，弥补 AI 在工程实践中的不足。