在Google I/O大会前夕,科技圈迎来了一则重磅消息:Google正式推出Gemini Omni,这款被外界视为AI领域“全能选手”的新产品,凭借其多模态交互能力迅速成为焦点。与传统AI工具聚焦单一任务不同,Omni通过整合文本、图像、视频、音频等多种模态,试图构建一个“一站式”生产力入口,重新定义了AI Agent的边界。
Omni的核心突破体现在两个层面。其一,它支持通过自然语言指令直接生成完整教学视频。例如,用户仅需输入“一位教授在黑板上推导三角恒等式并同步讲解”,系统便能自动生成包含粉笔动作、公式书写、语音解释的动态视频,无需分步骤操作或反复修正。这一能力背后,是AI对物理空间关系、逻辑推理和内容准确性的深度理解,而非简单的画面拼接。其二,Omni将Google分散的AI能力整合至单一对话框中,用户可同时完成写作、绘图、视频剪辑、跨任务记忆等操作,彻底告别多工具切换的繁琐流程。这种设计直击企业级用户的痛点——此前,某头部大厂引入AI编码工具后,虽提升了交付速度,却因需求质量参差不齐导致预算超支,暴露出单一模态工具的局限性。
市场对“全模态”的期待并非空穴来风。以视频制作为例,传统流程需依次调用文本模型生成脚本、图像模型设计封面、视频工具剪辑画面、音乐模型匹配配乐,任何一个环节出错都需推倒重来。而全模态系统可同步处理多种信息形态,显著降低试错成本。Google的转型更具象征意义:其此前将视频生成(Veo)、文本处理(Gemini)、图像生成(Imagen)拆分为独立产品,而Omni的推出标志着公司正式押注统一架构,回应了业界对“AI能否真正理解复杂世界”的质疑。
在国内市场,Minimax成为少数在全模态领域与谷歌正面竞争的独立AI公司。其M2系列模型在2026年初的Token用量较2025年底激增6倍,每分钟处理量(TPM)以每周10%-20%的速度增长,显示出强劲的市场需求。更引人注目的是其商业模式:通过优化推理服务器配置,Minimax实现单台设备每分钟1美元营收,而运营成本不足0.3美元,单位经济效益远超行业平均水平。这种“低成本、高毛利”的特性,使其在无需依赖广告投放的情况下,仅靠工具价值便实现用户自发增长——2025年营销费用同比下降40.3%,而毛利率从12.2%提升至25.4%。
资本市场的反应印证了全模态的战略价值。摩根士丹利预测,Minimax的年化经常性收入(ARR)将在2026年底突破10亿美元,与国际巨头处于同一量级。其背后的逻辑在于,全模态能力可同时覆盖企业级(ToB)和消费级(ToC)市场:企业用户需要高效处理跨模态任务,而个人用户则期待通过单一入口完成创作、办公等场景需求。Minimax的全球化布局进一步放大了这一优势——相比多数AI公司仅聚焦单一市场,其双线作战策略显著提升了增长天花板。
技术层面,Minimax的“模型+工程层”双轮驱动模式成为关键护城河。以视频生成为例,其下一代模型Hailuo 3预计将大幅提升理解能力,并通过工程优化降低使用门槛,使非专业用户也能轻松创作。在办公场景中,M3模型将强化AI Agent的多步骤任务规划能力,配合创新工具MaxHermes,实现从代码生成到日程管理、跨应用协作的扩展。瑞银分析指出,多模态训练产生的视觉理解能力可反哺文本模型,推动整体智能水平跃升,这种“1+1>2”的效应将成为Minimax的核心竞争力。
随着Gemini Omni的发布,全模态竞争已从技术概念进入商业化落地阶段。谷歌的转型与Minimax的崛起,共同指向一个趋势:未来的AI Agent必须具备“看、听、说、写、画”的综合能力,才能适应真实世界的复杂性。当市场从“流量竞争”转向“模型竞争”,那些能同时平衡技术深度与商业效率的玩家,或将主导下一轮增长周期。













