六一儿童节这一天,沉寂了一段时间的MiniMax气势如虹地发布了全新一代模型MiniMax M3。在官方那篇堪称完美的万字技术通告里,M3被塑造成了一个无所不能的“六边形战士”。
它手握着MiniMax最新的技术结晶MSA(MiniMax Sparse Attention)稀疏注意力架构,轻轻松松拿捏1M超长上下文,能原生处理多模态,甚至能自主运行12个小时独立复现ICLR 2025的获奖论文。更令人惊讶的是,官方宣称M3在权威评测中超越了GPT-5.5和Gemini 3.1 Pro两款全球顶级模型。
“M3是国内第一个齐备这些要素的模型,也是目前唯一的开源模型”。官方通稿里的这句断言,仿佛已经提前宣告了胜利。
然而,儿童节还没过完,各式各样的负面消息便接踵而来。历时三天,狂欢的泡沫还没有浮出就已经被彻底戳破。无论是官方的推文还是宣发视频,探讨技术突破的声音门可罗雀,取而代之的是满天飞的退款需求。
在这个戏剧性的转折背后,暴露出的是MiniMax在商业操盘上的傲慢与算计。当褪去技术报告上华丽的跑分外衣,M3在真实的能力和价格上,一头撞上了DeepSeek和小米上个月联手设下的无情斩杀线。
01
“谜之自信”的定价
撕开M3华丽外衣的第一道口子,就是极其违和的定价策略。
首先来看技术报告,官方花了大量篇幅吹嘘算力成本上的极致优化:在100万上下文的基础上,M3每token的计算量仅为上一代模型的1/20,在decoding阶段也有超过15倍的加速优势。
按照正常的商业逻辑,若是能让计算成本呈指数级下降,那么理应带来更具性价比的定价,从而在国内第二次大模型价格战中提前抢占生态位。然而,MiniMax反其道而行之,不仅实际使用成本比上一代模型更高,还来了一手让国内开发者彻底寒心的“中外双标”。
图源:https://linux.do/t/topic/2286885
就在发布的当晚,MiniMax中英文官网上的定价差异就被公开于众。论单价,国内订阅8.5元/亿tokens,海外订阅6.6元/亿tokens;论Token Plan,国内需要多花28%的钱,但只能换来额外的2个Agent并发运行和2条视频生成次数。
也就是说,国内用户在自己的地盘上,要为同一套国产AI服务多花28%的智商税。这是一种十分反常的现象,毕竟包括其竞争对手智谱在内的主流国产大模型厂商,在定价策略上都是海外订阅要明显更贵。
在这个DeepSeek和小米已经把API价格达到白菜价,而国外用户有OpenAI、Anthropic和Google提供诸多首选方案的大环境下,MiniMax这种双标操作瞬间败光了国内开发者的好感。
然而,这还只是这场风暴的开胃菜。
02
悄悄溜走的权益
这一套操作在国内开发者看来应该并不陌生了,因为这与两个月前智谱的操作可谓是如出一辙。对于这些大模型初创公司来说,愿意掏出真金白银、按年订阅千百元高阶套餐的开发者用户正是核心资产之一。这些开发者可能分布在各大企业,作为Minimax的忠实用户不断扩大模型的应用范围。然而,本该是被最悉心呵护的基本盘,在这次M3的发布中变成了被收割得最惨的群体。
迟来的道歉和补偿公告,并没能用漂亮话把这件事掩盖过去。技术社区的开发者们用严密的测试脚本和数据报表让官方所谓“无损迁移与丰厚补偿”背后的真相水落石出:这是一场极其精密的文字游戏和账本算计。
第一重算计,是明升暗降的计费维度。
首先要承认的是,Token Plan这种字面意义上的计费方式是合理的。原本的老套餐采取“按API调用次数收费”,会让很多经常需要进行长文本处理任务(如复杂编程项目、沉浸式翻译等)的用户觉得物超所值。
而借着这次M3发布的契机,官方也强制将计费模式修改为“按token计费”,类似于手机按流量收费的模式。这本该让收费更加透明、让用户更方便监控用量,然而在用户实测中,虽然套餐中包含十几亿的token额度,但M3的消耗速度却远比上一代模型M2.7要快,原本能用一个月的高阶套餐,如今可能只能撑住几天。从技术角度来看,M3的缓存命中率和工具调用可能都存在一定问题。
第二重算计,是鸠占鹊巢的多模态池。
这是最容易被忽视,也是最致命的一击。在老套餐中,文本模型与多模态模型的额度是独立计算的。然而,新版的Token Plan却将图片生成、TTS语音生成和视频生成这些多模态功能全都塞进了一个不透明的共享消耗池之中。
显而易见,实现多模态功能的消耗远比文本模型要多,用户让系统生成几张图片或是一段视频,消耗的token可能足以支撑一小时的编程任务。
最难以解释的,是名义token额度与实际token额度之间的差距。
图源:https://linux.do/t/topic/2283892
一位用户展示出了自己5小时使用期间M3消耗的token。按照比例转换,上限大约是每5小时1000万token。若数据真实,周限制不会超过8000万token,月限制也不会超过4亿token。对于那些MiniMax忠实的老用户,这就是“花最多的钱,挨最毒的打”,实际可用权益出现了断崖式的缩水。
一个主打AI生产力的工具,若是连账本都开始和用户算计到一分一毫,那么信任的崩塌只在朝夕之间。
03
“灾难”级别的公关
随着各种实际评测和算账帖子在各大社区发酵,退款的呼声也一浪高过一浪。被逼到墙角的MiniMax官方,终于在半夜憋出了一份致歉公告。
不得不说,这篇公告堪称反面教材,开篇第一句赫然写着“六一儿童节的尾巴还是开心点吧~”
面对一群刚刚被强制迁移套餐、暗改计费额度、被莫名其妙剥夺原有权益的开发者们,官方选择了这种嬉皮笑脸、阴阳怪气的开场。
抛开言语中透露出的傲慢不提,公告的内容也同样令人难以顺理成章地接受,它完美避开了所有核心矛盾:对国内外双标的定价只字不提、对token计费导致总额度缩水装聋作哑。取而代之的,是官方提出的补偿方案:
甚至在这份火急火燎提出的补偿方案中,还有对订阅时间不同的老用户的区别对待。评论区中,不乏开发者辛辣的讽刺:“官方把我的油箱抽干了一大半,然后道歉说,作为补偿,我允许你今天把油门踩到底。这有什么用?”
事到如今,评论数最多的小红书帖子下,官方回复的评论只有一句来自用户的夸奖“M3比M2.7强很多!”,而其他用户的疑问,似乎都已经石沉大海。
一系列操作引发了资深用户的愤怒自然不必多说,一位Linux.do论坛名为@mozilong的用户在MiniMax官方飞书群里据理力争。面对质疑,官方给出的最终解决方案是,直接将该用户踢出群聊。
解决不了问题,就解决提出问题的人。这套逻辑,在重视契约精神的开发者圈子行不通;而这些操作,无异于自掘坟墓。
那么,究竟是什么力量,让官方连夜修改规则、发布致歉、推出补偿,甚至马上设计退款通道呢?
恐怕不是良心发现,而是资本的毒打。
6月1日当天的港股市场,MiniMax在开盘短暂停留后,直接化身一只断线的风筝,迎来了瀑布式的崩盘。股价从898的区间一路下滑,最低砸到707,盘中跌幅逼近20%,K线图上也留下了一根惨烈的大阴线。
这次新模型发布股价不涨反跌的反常现象,就是市场最真实的投票。
04
近在咫尺的“斩杀线”
如果说商业操盘的反向操作只是加速了口碑的崩塌,那么发布后3天出炉的第三方评测,则是直接否定了MiniMax M3的技术叙事。
6月4日,AI评估机构Artificial Analysis发布了最新的榜单数据。这份原本应该是MiniMax寄予厚望、用来证明其模型能力超过国产竞品的成绩单,反而成了一记响亮的耳光。
MiniMax M3的测评数据显得十分诡异:在智力水平和代理能力排行榜上,它虽然无法与国际顶尖模型水平抗衡,但在国内模型中均排名第一;然而,在编程能力排行榜上,M3的表现堪称灾难。
且不说OpenAI、Anthropic和Google这“御三家”的模型,MiniMax的得分竟然比更早推出的Qwen3.7 Max、DeepSeek V4 Pro、Kimi K2.6和MiMo-V2.5-Pro还要低,勉强与竞争对手智谱的GLM-5.1打平,相比前代模型M2.7的提升也只在毫厘之间。
我们知道,考察一个模型的智力是高是低,离不开编程领域的测试。而编程能力的强弱,决定了它是否适合成为智能体的大脑。
因此,敏锐的用户早早察觉到了这个榜单中暴露出来的一个违反AI科学常识的悖论:MiniMax M3的代码能力落后,但它非常聪明,而且智能体代理能力极其出色。
这就好比一个数学符号都认不清的学生,却在国际数学竞赛夺得了奖项。换句话说,这份榜单和“主=6”一样藏着猫腻:定向刷榜。
在AI行业,这已经是一个半公开的秘密。一个模型如果在训练阶段针对某些Agent评测及进行了高强度的“应试教育”特训,模型自然能在面对特定的考题时给出完美答案。
但智能体代理所需的,是强大的代码生成、逻辑推理和复杂环境规划的能力。一旦脱离了固定的基准测试题库,进入真实的生产环境,缺乏底层编程能力制成的智能体,注定无法发挥任何商业价值。
如此一来,官方公告中写道“编程顶尖水平”却只列出SWE-Bench-Pro分数超越GPT-5.5、24小时无人干预完成1959次工具调用,在评测展示出来的基础代码能力面前,反倒像是一场精心编排的样板戏。
面对这样的成绩单,用户有理由质疑:在DeepSeek凭借扎实的底层推理能力和极致的性价比,在行业里设下了一条严格的斩杀线时,MiniMax凭什么让用户为M3买单?
05
结语
从6月1日的万众瞩目,到6月4日的一地鸡毛。短短72小时之间发生的转变,给国产大模型行业敲响了一次警钟:那个靠一篇技术报告和几项基准测试跑分就能得到用户认可的时代,已经一去不复返了。
竞争的下半场,极致内卷的主题早已确定。以DeepSeek为代表的技术主义者,仍然行走在用底层创新压榨出极致性价比的道路上。而紧随其后的小米,与DeepSeek共同设下了一条价格和性能交织在一起的斩杀线。
而在这条线之下,试图在账本上玩弄用户、用明升暗降收割基本盘、用捂嘴掩盖产品缺陷的小聪明全都无可遁形。
DeepSeek已经证明,人们愿意包容一家国产AI公司在技术上的暂时落后,也愿意与它一起Debug成长。
而对于MiniMax,信任的建立需要几年日复一日的迭代,但大厦的崩塌只需要不到72小时。
留给MiniMax找回初心的时间,恐怕不多了。






