小米认领爆款模型！雷军称超越马斯克xAI，MiMo-V2-Pro将开源引期待-网界

近日，科技圈迎来一则重磅消息：此前在OpenRouter平台引发广泛关注的神秘模型Hunter Alpha，终于揭开神秘面纱，其真实身份竟是小米最新发布的MiMo-V2-Pro早期内部测试版本。与此同时，小米正式推出MiMo-V2家族三款全新模型，除MiMo-V2-Pro外，还包括MiMo-V2-Omni和MiMo-V2-TTS，另一备受猜测的匿名模型Healer Alpha也确认对应MiMo-V2-Omni。

一周前，Hunter Alpha悄然上线全球最大的API聚合平台OpenRouter，凭借出色表现迅速成为焦点。上线后，其调用量持续攀升，连续多日占据日榜榜首，累计调用量突破1T tokens。小米官方介绍，经过一周的持续迭代与优化，MiMo-V2-Pro在长文处理能力以及Agent场景稳定性方面实现显著提升。雷军也亲自为新品站台，他表示MiMo-V2-Pro在榜单上的表现已超越马斯克旗下xAI的Grok，并透露小米在AI领域虽一直保持低调，但实际进展远超外界想象，今年在AI领域的研发和资本投入将超过160亿元。

MiMo-V2家族的三款模型各有侧重。MiMo-V2-Pro作为旗舰模型，专为高强度Agent工作场景打造。它总参数量超过1T，激活参数为42B，采用创新的混合注意力架构，支持1M超长上下文。该模型在匿名测试阶段就引发大量关注，OpenClaw早早给予支持。从技术规格看，相比前代MiMo-V2-Flash，其总参数量扩大约3倍，混合注意力比例从5:1提升到7:1，在参数规模增大的同时维持较高推理效率，轻量级MTP层也进一步提升了生成速度。在后训练阶段，团队针对更广泛的Agent场景持续Scaling，使模型逐渐能胜任真实生产环境中的复杂执行工作，朝着“生产力系统的大脑”定位推进。在大模型综合智能排行榜Artificial Analysis上，MiMo-V2-Pro位列全球第八、国内第二。在实际使用中，它在OpenClaw、Claude Code等智能体框架中展现出突出的端到端任务完成能力，官方称其整体使用体感超越Claude Sonnet 4.6，逼近Claude Opus 4.6，且API定价仅为后者的1/5。

MiMo-V2-Pro在编程领域也重点发力。小米内部工程师深度评测显示，其整体体验接近Claude Opus 4.6，在系统设计、任务规划、代码风格以及问题解决路径上展现出更高阶的代码智能。在Hunter Alpha测试阶段，调用量最高的几款应用大多是编程工具，侧面证明其在真实研发场景中具备较高的可用性和可靠性。目前，MiMo-V2-Pro已正式开放API服务，支持1M上下文长度，并根据使用量分段计价：256K上下文以内，输入1美元/百万tokens，输出3美元/百万tokens；1M上下文以内，输入2美元/百万tokens，输出6美元/百万tokens。与智谱面向真实Agent长链路任务深度优化的模型GLM-5-Turbo相比，小米模型定价整体略高，但此前Hunter Alpha在Claw-eval测试中击败了GLM-5。

MiMo-V2-Omni则瞄准现实世界中复杂的多模态交互与执行场景。在音频理解方面，它支持从环境声分类、多说话人分离，到音频—视觉联合推理，再到超过10小时长音频的连续理解，综合表现超过Gemini 3 Pro，是当前最强的音频理解基座模型之一。在图像理解方面，展现出强大的多学科视觉推理与复杂图表分析能力，效果超过Claude Opus 4.6，逼近Gemini 3 Pro等顶尖闭源模型。在视频理解方面，支持原生音视频联合输入，实现真正意义上的多模态视频理解，通过创新性的视频预训练，具备更强的情境感知与未来推理能力。在与真实数字环境交互的评测基准上，其整体表现比肩Gemini 3 Pro。目前，MiMo-V2-Omni已正式开放API服务，支持256K上下文长度，定价为输入0.4美元/百万tokens，输出2美元/百万tokens。

一同发布的MiMo-V2-TTS是一款自研的语音合成大模型。它基于自研Audio Tokenizer与多码本语音—文本联合建模架构，经过上亿小时语音数据的大规模预训练和多维度强化学习，具备高度可控的多粒度语音风格控制能力。不仅能完成整体风格定调，还能对局部情绪表达进行精准调节。训练时先通过超大规模语音—文本混合预训练建立跨模态对齐、理解和生成能力，再通过少量高质量监督数据微调获得可泛化的多粒度、多风格指令控制能力。为激发模型在预训练阶段积累的高表现力语音生成潜力，团队引入多维度强化学习，围绕更自然的韵律、更稳定的音质、更准确的字词表达、更高质量的音色克隆以及不同场景下更合适的语气与表达方式进行持续优化。得益于多层码本建模架构，它能在高保真的离散token空间中建模语音，最大限度保留原始语音中的丰富信息，让强化学习阶段能更直接地利用语音相关奖励信号对模型进行优化。

小米此次发布的三款模型，显示出其押注一套面向Agent时代的通用智能底座的决心。此前匿名爆红也让市场对其他模型厂家充满期待。近日有消息称，DeepSeek-V4将于4月正式上线，作为梁文锋打磨已久的多模态大模型，除在Coding能力上跃升外，还将在LTM（long term memory长期记忆）上取得突破，这恰好是智能体当前的短板之一。随着国内各模型厂家的战略和人才调整，今年国内大模型市场必将精彩纷呈。