小米MiMo-V2.5-Pro-UltraSpeed：3倍价享10倍速，8卡GPU解锁万亿参数新速度

时间：2026-06-10 09:46 作者：鞭牛士

小米与TileRT系统团队联合宣布，其研发的Xiaomi MiMo-V2.5-Pro模型在UltraSpeed模式下实现重大突破，首次在万亿参数规模下达成每秒输出超1000个token的里程碑。这一成果标志着大模型推理效率进入全新阶段，为实时AI应用落地提供了关键技术支撑。

在复杂可视化大屏生成任务中，UltraSpeed模式展现惊人效率：仅需13秒即可完成原本需要6分15秒的生成任务，速度提升达28倍。该模式通过标准8卡GPU节点实现，采用FP4量化技术将模型体积压缩至原有1/4，配合DFlash高效推测解码算法，使单次验证可确认多段文本内容。测试数据显示，在代码生成场景中，模型平均每轮可接受6.3个候选token，部分场景最高达7.14个。

技术实现层面，研发团队突破传统硬件限制，在通用GPU架构上构建三大核心优势：FP4混合量化技术针对MoE架构特性，仅对专家模块进行低精度压缩，确保模型精度损失小于1%；DFlash解码算法通过块级并行预测机制，将传统串行验证改为批量处理，使单次验证长度提升3倍；TileRT推理系统重构计算流水线，消除算子间执行间隙，实现数据搬运与计算的完全重叠。

同步上线的API服务采用差异化定价策略，在保持原有输入输出价格体系基础上，UltraSpeed模式定价为标准版的3倍，但提供约10倍的性能提升。该服务目前仅支持限时申请体验，开放周期为6月9日至23日，通过审核的用户可获得两周免费试用权限。技术团队已将FP4量化权重与DFlash模型参数开源至HuggingFace平台，供开发者研究使用。

实际应用场景测试显示，新模式在多个领域展现变革潜力：10秒内可生成完整贪吃蛇游戏代码，1分钟完成macOS系统界面复刻，在量化交易信号生成、实时风控拦截等对时延敏感的场景中，模型响应速度达到毫秒级。医疗领域测试表明，病灶分析时间缩短60%，为临床决策争取宝贵时间。不过团队也指出，当前高接受率主要集中于结构化任务，通用对话场景仍需持续优化。

这项突破性成果验证了软硬件协同设计的技术路径可行性。相比专用芯片方案，通用GPU架构显著降低实时AI推理的硬件门槛，使更多行业能够以合理成本获得近实时响应能力。但研发团队坦言，当前推理资源仍处紧张状态，大规模商用需解决算力分配与成本控制等现实问题。

06-10

金泰能源控股(02728.HK)今早复牌

06-10

A股长飞光纤股价创历史新高

06-10

恒指期货低开0.98%

06-10

武汉凡谷：氮化铝陶瓷基板有技术储备但无产品交付

06-10

上市公司近一月回购总额超170亿元头部企业示范效应渐显

06-10

钉钉风波升级：离职副总裁登上脉脉热搜，评论区大战前同事

06-10

现货黄金跌约1.6%，白银跌超4%

06-10

尾盘反弹！道指小幅收涨，芯片股下挫拖累纳指收跌近1%，ARM跌超6%

06-10

乔治亚大学TRON框架革新：为AI打造动态视觉推理训练新范式

06-10

医学AI新考场：加州大学与NVIDIA联手测试AI“医研员”真实能力

06-10

入华7年难撼山姆地位，开市客入驻京东弱化会员门槛求破局？

06-10

Anthropic逆袭OpenAI：聚焦企业与编程，AI赛道上演后来者居上

06-10

胜华波再战IPO：车身智能电机成新亮点，产能消化待考

06-10

图达通(02665.HK)6月9日耗资78.5万港元回购13.35万股

06-10

点击查看更多 +

全站最新

钉钉副总裁马锐拉离职，发文坦言高压熬夜难持续，祝福钉钉再创辉煌

大模型迭代引发适配难题？谷云科技AI网关为企业AI业务筑牢稳定防线

俞敏洪中国旅游企业家年会畅谈：以远行之心，开启文旅新征程

从义乌小店到万亿赛道：解码AI公司“码上飞”如何打造商业Agent新基建

阿里AI布局再深化：Token Foundry事业部成立，吴泳铭领航前沿探索

丰巢快递柜取件先遇广告“拦路”，稍不留意跳转购物，客服回应引关注

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号