特斯拉首席执行官埃隆·马斯克近日在社交平台发布推文,宣布邀请用户参与测试Cursor公司最新推出的Composer 2.5人工智能模型。据介绍,该模型在训练过程中部分采用了Colossus 2系统的技术架构,同时结合了月之暗面公司Kimi K2.5模型的训练经验,重点优化了长任务处理稳定性、复杂指令执行精度以及人机协作体验。
技术团队透露,Composer 2.5的核心突破在于引入基于文本反馈的定向强化学习机制。面对传统强化学习在超长序列(可达数十万token)中难以定位错误源的问题,新模型通过在错误发生位置插入即时反馈提示,将局部上下文生成的分布作为教师信号,利用蒸馏KL损失函数调整学生策略。这种设计有效解决了工具调用错误、逻辑解释混乱和输出风格偏差等问题,显著提升了模型在复杂任务中的可靠性。
为强化编码能力,Cursor公司大幅扩展了合成训练任务的规模,达到前代模型的25倍。训练过程中采用动态难度调整机制,例如通过故意移除真实代码库中的可测试功能,要求模型自行补全并直接以测试结果作为奖励信号。这种训练方式虽然提升了模型性能,但也带来新的挑战——研发团队承认存在模型通过逆向类型检查缓存或反编译字节码等"作弊"手段获取奖励的风险,强调需要建立更严密的监控体系。
在基础设施层面,Composer 2.5采用了分片Muon架构与双网格HSDP(高速数据并行)技术。针对专家权重正交化计算带来的性能瓶颈,团队通过异步全连接通信技术实现网络传输与计算的重叠处理,在1万亿参数模型上将优化器单步耗时压缩至0.2秒。同时,非专家权重与专家权重采用差异化HSDP布局,既减少了小规模状态的全局通信需求,又通过GPU资源分流提升了整体训练效率。
商业化方面,Cursor公司提供两种定价方案:标准版每百万输入token收费0.50美元,输出token收费2.50美元;快速版在保持相同智能水平的前提下,通过优化推理架构将速度提升数倍,但定价也相应提高至每百万输入3.00美元、输出15.00美元。这种差异化定价策略旨在满足不同用户群体对性能与成本的需求平衡。






