全模态时代来临：从Google Omni到Minimax，谁将引领AI新变革？-网界

在Google I/O大会前夕，科技圈迎来了一则重磅消息：Google正式推出Gemini Omni，这款被外界视为AI领域“全能选手”的新产品，凭借其多模态交互能力迅速成为焦点。与传统AI工具聚焦单一任务不同，Omni通过整合文本、图像、视频、音频等多种模态，试图构建一个“一站式”生产力入口，重新定义了AI Agent的边界。

Omni的核心突破体现在两个层面。其一，它支持通过自然语言指令直接生成完整教学视频。例如，用户仅需输入“一位教授在黑板上推导三角恒等式并同步讲解”，系统便能自动生成包含粉笔动作、公式书写、语音解释的动态视频，无需分步骤操作或反复修正。这一能力背后，是AI对物理空间关系、逻辑推理和内容准确性的深度理解，而非简单的画面拼接。其二，Omni将Google分散的AI能力整合至单一对话框中，用户可同时完成写作、绘图、视频剪辑、跨任务记忆等操作，彻底告别多工具切换的繁琐流程。这种设计直击企业级用户的痛点——此前，某头部大厂引入AI编码工具后，虽提升了交付速度，却因需求质量参差不齐导致预算超支，暴露出单一模态工具的局限性。

市场对“全模态”的期待并非空穴来风。以视频制作为例，传统流程需依次调用文本模型生成脚本、图像模型设计封面、视频工具剪辑画面、音乐模型匹配配乐，任何一个环节出错都需推倒重来。而全模态系统可同步处理多种信息形态，显著降低试错成本。Google的转型更具象征意义：其此前将视频生成（Veo）、文本处理（Gemini）、图像生成（Imagen）拆分为独立产品，而Omni的推出标志着公司正式押注统一架构，回应了业界对“AI能否真正理解复杂世界”的质疑。

在国内市场，Minimax成为少数在全模态领域与谷歌正面竞争的独立AI公司。其M2系列模型在2026年初的Token用量较2025年底激增6倍，每分钟处理量（TPM）以每周10%-20%的速度增长，显示出强劲的市场需求。更引人注目的是其商业模式：通过优化推理服务器配置，Minimax实现单台设备每分钟1美元营收，而运营成本不足0.3美元，单位经济效益远超行业平均水平。这种“低成本、高毛利”的特性，使其在无需依赖广告投放的情况下，仅靠工具价值便实现用户自发增长——2025年营销费用同比下降40.3%，而毛利率从12.2%提升至25.4%。

资本市场的反应印证了全模态的战略价值。摩根士丹利预测，Minimax的年化经常性收入（ARR）将在2026年底突破10亿美元，与国际巨头处于同一量级。其背后的逻辑在于，全模态能力可同时覆盖企业级（ToB）和消费级（ToC）市场：企业用户需要高效处理跨模态任务，而个人用户则期待通过单一入口完成创作、办公等场景需求。Minimax的全球化布局进一步放大了这一优势——相比多数AI公司仅聚焦单一市场，其双线作战策略显著提升了增长天花板。

技术层面，Minimax的“模型+工程层”双轮驱动模式成为关键护城河。以视频生成为例，其下一代模型Hailuo 3预计将大幅提升理解能力，并通过工程优化降低使用门槛，使非专业用户也能轻松创作。在办公场景中，M3模型将强化AI Agent的多步骤任务规划能力，配合创新工具MaxHermes，实现从代码生成到日程管理、跨应用协作的扩展。瑞银分析指出，多模态训练产生的视觉理解能力可反哺文本模型，推动整体智能水平跃升，这种“1+1>2”的效应将成为Minimax的核心竞争力。

随着Gemini Omni的发布，全模态竞争已从技术概念进入商业化落地阶段。谷歌的转型与Minimax的崛起，共同指向一个趋势：未来的AI Agent必须具备“看、听、说、写、画”的综合能力，才能适应真实世界的复杂性。当市场从“流量竞争”转向“模型竞争”，那些能同时平衡技术深度与商业效率的玩家，或将主导下一轮增长周期。