科技·商业·财经

小米MiMo-V2.5-Pro-UltraSpeed:3倍价享10倍速,8卡GPU解锁万亿参数新速度

   时间:2026-06-10 09:46 作者:鞭牛士

小米与TileRT系统团队联合宣布,其研发的Xiaomi MiMo-V2.5-Pro模型在UltraSpeed模式下实现重大突破,首次在万亿参数规模下达成每秒输出超1000个token的里程碑。这一成果标志着大模型推理效率进入全新阶段,为实时AI应用落地提供了关键技术支撑。

在复杂可视化大屏生成任务中,UltraSpeed模式展现惊人效率:仅需13秒即可完成原本需要6分15秒的生成任务,速度提升达28倍。该模式通过标准8卡GPU节点实现,采用FP4量化技术将模型体积压缩至原有1/4,配合DFlash高效推测解码算法,使单次验证可确认多段文本内容。测试数据显示,在代码生成场景中,模型平均每轮可接受6.3个候选token,部分场景最高达7.14个。

技术实现层面,研发团队突破传统硬件限制,在通用GPU架构上构建三大核心优势:FP4混合量化技术针对MoE架构特性,仅对专家模块进行低精度压缩,确保模型精度损失小于1%;DFlash解码算法通过块级并行预测机制,将传统串行验证改为批量处理,使单次验证长度提升3倍;TileRT推理系统重构计算流水线,消除算子间执行间隙,实现数据搬运与计算的完全重叠。

同步上线的API服务采用差异化定价策略,在保持原有输入输出价格体系基础上,UltraSpeed模式定价为标准版的3倍,但提供约10倍的性能提升。该服务目前仅支持限时申请体验,开放周期为6月9日至23日,通过审核的用户可获得两周免费试用权限。技术团队已将FP4量化权重与DFlash模型参数开源至HuggingFace平台,供开发者研究使用。

实际应用场景测试显示,新模式在多个领域展现变革潜力:10秒内可生成完整贪吃蛇游戏代码,1分钟完成macOS系统界面复刻,在量化交易信号生成、实时风控拦截等对时延敏感的场景中,模型响应速度达到毫秒级。医疗领域测试表明,病灶分析时间缩短60%,为临床决策争取宝贵时间。不过团队也指出,当前高接受率主要集中于结构化任务,通用对话场景仍需持续优化。

这项突破性成果验证了软硬件协同设计的技术路径可行性。相比专用芯片方案,通用GPU架构显著降低实时AI推理的硬件门槛,使更多行业能够以合理成本获得近实时响应能力。但研发团队坦言,当前推理资源仍处紧张状态,大规模商用需解决算力分配与成本控制等现实问题。

 
 
更多>同类内容
全站最新
热门内容