AI公司Anthropic正通过一项大规模协作项目,着力优化其代码生成工具Claude Code的性能表现。该项目依托数据标注服务商Snorkel AI的"Marlin"计划,集结了近千名软件工程师参与模型训练,通过模拟真实开发场景提升代码质量。
据参与项目的工程师透露,核心任务是对不同版本的模型输出进行A/B测试。测试人员需对比两组代码的逻辑结构、可读性和维护性,选择更符合工程实践的方案,并评估其是否达到提示词要求的细节标准。这种双盲测试机制确保评估结果的客观性,测试者甚至不清楚所对比的具体模型版本。
在具体执行层面,每位参与者需完成编写测试提示词、审查代码输出、与审核团队沟通修改意见等全流程工作。项目方为每项任务支付280美元报酬,按当前汇率折合约1902元人民币。多数任务可在1小时内完成,但涉及复杂技术场景的案例可能需要多轮交互优化。
这种将专业数据工作外包给第三方机构的模式,在AI行业已形成成熟产业链。Snorkel AI等服务商通过标准化流程管理,将模型训练需求拆解为可量化的任务单元,再由具备相关领域知识的外包人员执行。这种分工模式既保证了训练数据的专业性,又提升了模型迭代的效率。
当前项目仍处于数据收集阶段,具体优化效果有待后续验证。参与测试的工程师表示,项目重点在于培养模型生成"工程友好型"代码的能力,包括减少冗余逻辑、优化模块划分、增强可维护性等维度。这种训练方向与实际开发需求高度契合,有望显著提升AI代码工具的实用价值。






