在近日举办的小米“人车家全生态合作伙伴大会”上,前DeepSeek核心成员、现小米MiMo团队负责人罗福莉完成首次公开演讲。这位被视为小米AI研发转型关键人物的技术专家,以一场融合生物进化论与AI技术创新的演讲,引发行业对下一代智能体系统的深度思考。
面对市场期待的"颠覆性突破",罗福莉选择从生命演化视角切入AI发展命题。她通过对比6亿年前生命控制身体的原始能力与现代大模型的语言处理能力,指出当前技术路径的特殊性:"生物进化遵循感知-思考-语言的递进逻辑,而AI发展却逆向构建,先掌握语言压缩的人类认知,再反推物理世界模拟能力。"这种倒置式发展虽带来算力突破,却导致模型缺乏对重力、摩擦力等基础物理法则的感知。
针对这一痛点,小米推出的MiMo-V2-Flash模型展现出三大技术突破。在架构层面,该模型采用5:1比例的混合滑动窗口注意力机制,通过锁定128个token的"神奇窗口",在保持256K长上下文处理能力的同时,将KV缓存固定化以降低硬件压力。这种设计使代码生成能力刷新行业纪录,在公开评测中与参数规模翻倍的竞品持平。
推理效率方面,模型通过三层多令牌预测(MTP)技术实现2.5倍加速,生成速度达150 tokens/秒。这项源自DeepSeek的技术经过创新应用,在微调阶段通过增加MTP层数,用不到标准流程1/50的计算量即复刻教师模型性能。测试数据显示,该模型在云端数据中心实现每秒5000-15000 tokens的吞吐量,单请求处理速度较Gemini 2.5 Pro提升3倍,成本降低20倍。
在训练范式革新上,团队提出的MOPD(多教师在线策略蒸馏)技术突破传统强化学习瓶颈。该技术通过稠密令牌级奖励信号进行监督学习,使模型在几十步内快速吸收各领域专家能力。更值得关注的是自进化机制——当学生模型性能超越教师时,系统自动替换更强模型继续迭代,形成持续优化的闭环。
尽管技术指标亮眼,端侧部署仍面临现实挑战。以旗舰手机为例,当前端侧模型的舒适区停留在3-7B参数区间,而MiMo-V2-Flash的15B激活参数仍需依赖云端算力。这种"云端强模型"与"终端弱交互"的矛盾,暴露出AI手机变革的技术鸿沟。
罗福莉在演讲中描绘的智能体蓝图更具颠覆性。她提出下一代系统需具备两大核心能力:其一,从"回答问题"转向"完成任务",通过全模态感知构建动态系统,使AI无缝嵌入智能眼镜等终端;其二,建立物理模型,打造具备时空连贯性的虚拟宇宙。现场演示中,模型通过HTML代码生成可交互的太阳系模拟系统,初步展现语言空间模拟物理世界的能力。
随着MiMo-V2-Flash模型权重和技术报告的开源,小米同步推出Web Coding IDE开发接口和体验平台。这场融合生物哲学与工程技术的演讲,不仅展现小米在AI领域的技术积淀,更揭示出从语言智能到物理智能的跨越路径——真正的智能不应是文本空间的投影,而需在真实交互中持续进化。







