AI 的进步不再是实验室里的曲线图,而是程序员、设计师、普通用户等每天都能清晰感受到的真实变化。GPT-5.5 的发布、Claude Mythos 的出现,以及在网络安全、Agent 编程等领域频繁出现的“能力跃迁”,让越来越多人开始问同一个问题:AI 是真的在加速,还是只是我们的体感突然变强了?在这期 MAD Podcast 中,主持人 Matt Turck(FirstMark 管理合伙人)与 OpenAI 后训练前沿团队联合负责人 Yann Dubois 进行了一场深入对话。Yann 从内部视角拆解了这场变化的底层逻辑:AI 之所以让人觉得“成了”,核心不在于模型突然变得更聪明,而是跨过了一道可靠性阈值,模型已经稳定到可以真正承担日常工作中的实际任务。围绕这一转折,他详细讨论了 GPT-5.5 背后的效率提升与公司级对齐、推理模型从竞赛题向真实世界问题的迁移、预训练未撞墙的真实原因等内容。整场对话既是对当下 AI 进展的一次系统梳理,也是对接下来 12 到 24 个月发展方向的一份内部预判。
以下为编译。
1
最近AI 为什么突然像“跨过了一道坎”
主持人: 最近几周,前沿 AI 的进展又像上了一个台阶。GPT-5.5 发布了,Claude Mythos preview 也出来了。尤其在网络安全、Agent 编程这些方向,大家都明显感觉到能力跃迁。你怎么理解这种变化?真的是在加速,还是只是我们体感上突然变强了?
Yann: 过去几个月确实非常猛,内部也有同样的感受。尤其是对每天都在写代码的人来说,这种变化非常直接。我觉得主要有三个原因。第一,模型能力的进步在我看来其实一直是连续的,但要真正让 AI 工具变得“有用”,必须跨过一个可靠性阈值。我感觉至少在 OpenAI,这个阈值大概是在去年 12 月左右被跨过去的。也就是说,模型已经可靠到可以承担我们日常工作里的大量实际任务了。所以用户会觉得像“突然跳变”,但从底层能力曲线看,它更像一条持续上升的线。第二,一旦模型真的变得足够好,它会反过来加速模型本身的发展。特别是在编程场景里,我们内部本来就在大量写代码,所以模型既能帮助训练下一代模型,也能帮助研究者搭建工具、提高研发效率。于是,最近几个月的进展又进一步加快了。第三,去年我们在推理模型和强化学习上投入了很多。最早像 01、01 preview、03 这些模型,主要还是优化那些可验证奖励的任务——比如数学题、编程竞赛,因为这些场景很容易判断对错。但现在,我们已经把很多原本只在“有标准答案”的环境里有效的工具,迁移到了更通用、更真实的用户场景里。换句话说,我们正在从“比赛型任务”转向“真实世界里对用户有用的任务”。而今天大家感受到的,正是这个转折。
主持人: 你刚才提到“可靠性阈值”。这里的可靠性,具体是指什么?更偏工程,还是更偏模型本身?
Yann: 两边都有,但我先只说模型层面的可靠性。现在这些模型越来越“Agent 化”了。你可以把它想成这样:如果模型每两分钟就有一个固定概率犯错,那么它连续运行得越久,最终答案出错的总概率就越高。这几乎是 Agent 系统的天然问题。所以这段时间我们重点做的一件事,就是尽量把“模型每过一小段时间就走偏一次”的概率降下来。应用侧当然也做了很多可靠性工程,OpenAI 相关团队做得非常好,但即便只看模型本身,我们也一直在想办法降低犯错概率。
2
GPT-5.5 发布的背后
主持人: GPT-5.5 显然是个大版本。站在内部视角,你们最自豪的是什么?最难的又是什么?发布过程中大家的情绪是什么样的?
Yann: 说实话,大家都挺兴奋。5.5 属于那种“全公司都卷进去一起做”的模型,我们现在很明显能感觉到,它确实引起了很大关注,而且某种程度上,很多条件都在那个时间点同时对齐了。这种事不是每次都会发生,所以这次很特别。但每一代模型,内部情绪其实都差不多:一开始看到早期效果特别好,所有人都很兴奋;接着怀疑就来了,会觉得“是不是大家吹得太早了,它在很多别的地方其实没那么好”;然后又会经历一波反向低估;最后到真正发布时,大家才慢慢稳定下来。5.5 基本也是这个过程,只不过情绪振幅更大,先特别兴奋,再没那么兴奋,最后发布之后,外部反馈很好,大家也就放心了。
主持人: 这个过程通常有多长?几周,还是几个月?
Yann: 得看具体是 pipeline 的哪一段。我们内部有不同子团队,像预训练、中训练、后训练都各有自己的周期。越靠近产品的阶段,比如后训练,迭代越快;越往上游,周期越长。所以快的时候按天算,慢的时候按月算。至于 5.5 的具体细节,我没法展开说。
主持人: 5.5 在 Agent 编程、电脑操作、知识工作、早期科研这些场景里都很强。内部是怎么组织这些能力建设的?不同团队各做一块吗?
Yann: 是的,我们有很多专门盯具体使用场景的团队。我的团队更像最后把这些能力拼进同一个模型的人。你可以把它理解成两类工作。一类是垂直能力。比如某个团队专门做编码,某个团队专门做 computer use,某个团队做知识工作。大家各自把某一块做深。另一类是水平能力。这类能力会影响所有场景,比如指令跟随、函数调用、模型到底该思考多久、不同问题上该不该展开长推理,等等。这些不是某个单独垂直场景的事,而是整个模型栈共同受影响的能力。我的团队很大一部分工作,就是把这些水平改进做好,同时把各个垂直方向的提升整合进最终版本。这里面还有一层很重要:模型不能“太尖”。如果一个模型在某些垂直方向上特别强,但整体手感非常不均匀,用户也不会满意。所以我们还承担一个“平滑器”的角色,让模型在不同场景下都更稳定、更一致。而且这些改进很多时候是正交的。可能这一版里,某些垂直团队的成果接入了,另一些还没来得及;下一版又会换一批。所以最终模型,其实是多个方向不断迭代、持续汇合的结果。如果说 5.5 这次有什么特别让我骄傲的,两点最明显。第一是效率。我们把模型效率提得很高,在大多数任务上,速度大概提升到了过去的两倍。第二是公司级对齐。真的把整个公司朝着一个共同目标拉齐,在固定时间内做出一个大家都认可的模型,这件事本身就非常难。
主持人: 你说的效率,具体指什么?是每 token 的效率,还是推理延迟,还是部署层面的吞吐?
Yann: 其实全都有。当我们讨论效率时,一个经典图像是:横轴是“模型思考了多少 token”,纵轴是“模型表现”。研究要做的是把整条曲线往左移——也就是让模型用更少的思考 token,达到同样甚至更高的正确率。推理工程团队做的事也和横轴有关,只不过他们把“思考 token 数”进一步转换成了真实延迟。而用户真正关心的,其实是“延迟—性能”这条曲线,而不是你内部到底用了多少 token。所以 5.5 的效率提升,既包括推理优化,也包括模型本身更会“少想但想对”,最后才表现为用户感知到的更快。也正因为这是研究、工程、基础设施一起作用的结果,我才一直说,这次是全公司的成果。
3
Yann Dubois:从瑞士到 OpenAI,中间绕了很多路
主持人: 说说你自己吧。你是怎么走到 OpenAI 的?
Yann: 说起来挺长,我尽量讲短一点。我本科在瑞士读的是生物医学工程。后来去加拿大交换时,第一次接触到 word2vec。那个算法对我冲击特别大:它能把离散的词映射到一个连续向量空间里,语义相近的词彼此也更近。这种“让语言变成可计算空间”的方式,当时真的让我非常震撼。也是从那时候开始,我决定做 NLP。不过我当时其实判断错了。那是 2017 年,我居然以为英文 NLP 差不多快被解决了,所以想去做低资源语言。后来事实证明我完全想早了,那甚至还是 Transformer 刚出来前后。之后我去了新加坡,在 Grab 做 NLP,处理印尼语、泰语、越南语等多种语言。再后来又做了一些偏学术的工作,最后去了斯坦福读 PhD。博士之后,我短暂做过一段创业,后来加入 OpenAI。
主持人: 我记得你个人页面上还写过一句,不欢迎量化基金来联系你。
Yann: 对。我一直很在意自己做的事,到底有没有正向价值,或者至少是不是在尽量创造正向价值。所以才会写那句。
主持人: 很多人应该也在 GPT-5 的发布视频里见过你。你当时现场演示了一个临时生成的法语学习应用,帮你伴侣学法语,挺有意思。
Yann: 那个还挺好玩的。最刺激的是,正式上台前最后一次 rehearsal,它其实没跑通,所以我当时真有点紧张。好在正式演示时顺利了。
4
从竞赛推理到真实世界推理
主持人: 回到推理。今天说“推理模型”,和当初谈 01、03 时相比,最大的变化是什么?我自己的感觉是,5.5 特别擅长处理“脏的、乱的、不完全指定”的问题,这意味着它更会在模糊条件里推理了。到底变了什么?
Yann: 01 和 01 preview 当年是非常大的突破,因为它们第一次清楚地让整个研究界看到:模型可以“思考”,而且通常想得越久,越可能答对。但当时你去看那些博客或 benchmark,会发现主要展示的还是数学、编程竞赛这类题。为什么?因为这些任务特别容易验证对错。它们有标准答案,所以也能反推我们当时是怎么训练这类模型的。去年,尤其是去年后半段到今年,我们真正完成的,是把原来只在可验证奖励任务中好用的方法,迁移到了混乱、开放、真实世界的问题里。我们开始不再只优化“数学题有没有答对”,而是更直接地优化“用户拿到这个结果,到底有没有用、能不能提效”。所以今天“推理”的变化,本质上就是:我们从一个比较干净、封闭、可判对错的训练世界,走向了一个更接近现实工作的训练世界。
主持人: 所以关键还是后训练里的强化学习?
Yann: 这是很大一部分,但也不只如此。一方面,新方法刚被发明出来时,往往都比较脆弱,不够稳定,也难产品化。这块后来也进步了很多。另一方面,我们有了一个可持续优化的工具之后,最开始为了让它工作,往往会做很多现实中的简化假设。现在我们正在一步步拿掉这些假设,让后训练真正围绕“用户效用”展开。你今天看到的很多 eval,也比以前真实得多了。像 GDPval、3bench Pro、3bench 这类评测,看起来都比早年的 codeforces、编程竞赛更像真实工作。
主持人: 那 5.5 Thinking 和 5.5 Pro 的区别,本质上是不是就是测试时算力的多少?就是给模型更多 token、更多时间去想?
Yann: 基本可以这么理解。差别主要就是你在测试时往这个系统里灌了多少 compute。我们一再看到,模型想得越久,答案通常越好。但这条曲线绝对不是线性的,更像对数型:你算力翻倍,收益可能只是小幅上升。我个人其实不太常用 Pro,因为我很讨厌等待,性子比较急。我知道它确实能提升正确率,但对我来说,提升还没大到值得我花那么久等它。不过有一类人特别喜欢 Pro,比如做学术研究的人,尤其是数学家。因为他们可以把问题丢给模型,然后挂后台跑一两个小时,不要求高频交互,那 Pro 的价值就很明显。
主持人: 你前面又在说效率,又在说更长的 test-time compute。怎么把这两件事统一起来理解?
Yann: 还是回到那张图:横轴是延迟,纵轴是性能。当我们说效率提高,其实就是整条曲线往左移了:达到同样性能,延迟更低了。而 Pro 做的是另一件事:它把曲线向右延展。也就是说,愿意接受更长等待的人,可以换来更高的正确率。但注意,每一代 Pro 本身也会继续往左移,它也在变得更高效。总有一些任务,用户只想要最高正确率,不在乎延迟。比如我睡前丢一个任务进去,模型有整整 8 小时可以思考,那它当然应该尽可能多想一会儿。
主持人: 从直觉上说,这种“更高效”的推理具体意味着什么?比如它会更早意识到自己走错路,然后中断?
Yann: 这也是其中一部分。但我更喜欢用人来类比。一个刚入门的本科生做题,可能会花一两天去试十条路,因为他不知道哪条路更可能对。一个真正懂这个领域的专家,往往很快就知道该往哪边走,不会在十个方向上都耗时间。模型效率提升,本质上也是这样:它在真实问题上训练得更多以后,会更早识别“哪些推理路径更可能是对的”。你刚说的另一层也成立,模型还会逐渐学会更早发现自己走偏,然后回溯、换路继续试。强化学习可以训练这种能力。如果训练得不够,它往往要到很后面才知道自己前面整段推理都不对。
5
三层架构:预训练、中训练与后训练
主持人: 聊聊现代模型里的三个阶段:预训练、中训练和后训练。先说预训练。去年有个很流行的叙事是“预训练撞墙了”,但 2026 年看起来完全不是这样。到底发生了什么?
Yann: 关于内部具体怎么做,我不能讲太多。但有一点很值得说:更大的模型,本身就会带来效率优势。你可以这么理解:模型在生成下一个 token 时,其实某种意义上已经把很多“思考”编码进参数里了。模型越大,它往往越不需要在测试时显式生成那么多思考 token,就能得到不错的结果。这就意味着,单纯把预训练模型做大,本身就可能让系统在推理阶段更高效。而且大模型在推理时也更容易做并行优化,所以虽然你表面看起来是用了一个更大的模型,但系统整体效率不一定下降,反而可能提高。至于“预训练撞墙”这个问题,我自己两年前其实也这么想过。但现在看,至少还没到那个地步。你看 Anthropic 的 Mythos,光看价格你大概就能判断那是个更大的模型——通常每 token 成本会暴露一些信息。而它的效果也确实很好。很多人原来都担心数据墙,担心互联网文本不够用了,但现实看起来是,各家公司都找到了不同方式去绕过“公开互联网数据有限”这个问题。
主持人: 那下一阶段或者说当前阶段的数据前沿,究竟是多模态,还是合成数据?
Yann: 如果真的进入数据受限阶段,合成数据大概率会有用。多模态也很有意思。我不能说我们内部的情况,但我以前做过多模态表示学习,一直觉得如果模型看过足够多多模态数据,它的推理能力应该会更强。今天我依然这么觉得。不过也有反例。比如看 Anthropic 的模型,它们在多模态上并不算特别强,但依然很聪明。这说明多模态可能没有我以前想象得那么“必要”。但如果往具身智能走,也就是 embodied AI,我还是相信模型必须通过和世界互动来学会很多东西。它会因此变得更有常识,也更有用。
主持人: 你说的 embodied AI,更接近机器人吗?比如通过视频理解重力、空间运动这些现实规律?
Yann: 对。很多人都有一个很强的直觉:光靠文本,很难真正理解世界。你不真的“看到”东西下落,其实很难真正理解重力。当然,今天的模型某种程度上已经在没看过真实下落过程的情况下“懂”了重力,但这种懂还不够扎实。它们在常识层面仍然缺一些东西。所以我还是觉得,让模型和现实世界发生交互,会显著提升它们的常识理解。只是整个学术界和产业界离那一步都还挺远。
主持人: 那顺着这个话题说,抛开 OpenAI 身份,你看好 world models 吗?
Yann: 如果 world models 的意思是:先模拟一个环境,再在模拟环境里训练或推理,那我当然觉得它们有价值。但问题是,模拟永远很难完全真实。最后一定还需要一些真实世界里的训练,来校准模拟世界和现实世界之间的偏差。我觉得这个领域有一个常见风险:大家会在一个“模拟得还不错、但并不完全真实”的环境里优化太久。开始阶段这当然有用,但一旦你过度优化,那个目标就会逐渐脱离真实世界。可人们往往又会因为已经投入了很多,就继续沿着那条路走下去。所以关键不是 world model 行不行,而是你要知道什么时候该停,什么时候该回到现实世界。我自己不直接做 embodied AI,所以不敢说这个界线今天到底已经到了没有。
主持人: 我们再回到“预训练—中训练—后训练”这条线。中训练这个词,外界听得没那么多。它到底是什么,为什么重要?
Yann: 中训练,顾名思义,就是介于预训练和后训练之间的一层。它的核心思想很简单:如果你手上有一批高质量、且更接近最终目标的数据,那你就应该在这批数据上“过采样”或者说“过度训练”一点。因为预训练本质上是在尽可能从整个互联网学世界知识。但互联网里大部分内容其实并不那么有用。比如 Wikipedia、GitHub 这类数据,信息密度显然比随机论坛高;广告类内容就更没必要让模型学太多。预训练阶段,你还是会把这些内容都吃进去;而中训练的作用,就是把那些你认为真正有价值、真正接近目标使用方式的数据权重拉高。这件事我不能谈 OpenAI 内部细节,但在学术界和开源社区里,中训练已经是非常普遍的一步了。
主持人: 那后训练呢?很多人一听后训练就想到强化学习,但它显然不只有 RL。能不能先从高层定义一下?
Yann: 如果说得宽泛一点,我会把后训练理解成:把一个“知道世界上很多事”的模型,变成一个“对人真正有用”的模型。我很喜欢一个比喻。预训练像是把整个图书馆都装进脑子里。理论上,图书馆里什么信息都有;但真正有价值的是,你面对的是一个已经把这些书都读过、能听懂你问题、还能给你组织出合适答案的专家。后训练的目标,就是把“知识库存”变成“可交互、可使用、能满足用户真实需求的能力”。如果从开源世界最常见的流程说,后训练大概分三步。第一步是 SFT(监督微调)。也就是让人类提供理想答案,模型去模仿这些答案,本质上是一种“行为克隆”。第二步是 强化学习。它和 SFT 的差别在于:你不需要知道唯一标准答案是什么,但你知道“什么样的回答更好”“什么样的回答更符合目标”。模型通过不断采样、比较、优化奖励,逐渐超过原本的人类标注水平。而在 RL 里,又可以再分出两类:一种是可验证奖励,比如数学题、程序题,对错很清楚;另一种是不可完全验证的奖励,比如开放式任务,你可能只能说 A 比 B 好,但很难说哪个是完美答案。现实里当然不是非黑即白,中间有很多连续状态。但如果你要建立一个基本理解,这三层已经够用了。
主持人: 如果照这个说法,SFT 负责把模型拉到“像个像样的助手”,那 RL 的意义是不是在于突破人类老师本身的上限?
Yann: 对,这就是重点。SFT 的问题在于,你永远不可能超过你拿来做“标准答案”的那批人。因为它本质上是在复制这些人的行为。人类标注者本身有很多限制,所以行为克隆的上限,也受限于他们。而 RL 做的是另一件事:它不要求你提前知道最佳答案,但你可以定义“什么更好”。模型会不断尝试,得到反馈,然后朝奖励更高的方向优化。这种方式可以逼着模型跑出一些原本标注者未必直接写得出来的答案。不过 RL 也有前提:你不能从零开始就靠 RL。因为 RL 的机制是“先从模型中采样大量候选,再奖励更好的那个”,如果模型一开始太差,它几乎不可能自己“碰巧”采样到正确路径,那训练会非常低效。所以更现实的流程是:先用 SFT 把模型尽量拉近目标,再用 RL 去超越。
6
强化学习的本质、难点
主持人: 那 RL 到底是在创造新能力,还是只是把预训练里已有的能力发挥得更好?
Yann: 这个问题很难科学地回答。因为如果你认为预训练模型已经“从整个互联网里学到了世界”,那从某种意义上说,一切能力都已经潜伏在里面了。但如果看实际现象,我会说:过去一年半,尤其在开源世界,强化学习之后出现的能力,确实比两年前 SFT 时代强太多了。比如我做 Stanford Alpaca 的时候,用的是 5 万条左右 SFT 数据;而今天你看像 Kimi、DeepSeek 这些强化学习路线,训练规模可能已经接近 100 万条数据点。从结果上看,模型学会了很多以前没有显著表现出来的东西,比如更强的推理、更会检查自己答案、会为了提高正确率而延长思考。这些现象都让人感觉像“新能力出来了”。所以严格地说,也许这些能力早就在预训练里;但从我们的观察看,强化学习确实把很多原本没表现出来的东西显著释放了出来。
主持人: 强化学习一直被说很 finicky,也很难扩展。早期 LLM 的进展曲线里,之所以不是一上来就靠 RL,也和这点有关。RL 的难点到底在哪儿?
Yann: 如果你两年前问大部分没做过 RL 的研究者,他们很可能会说:这玩意儿不靠谱,太脆弱了。我自己以前也是这么想的。ChatGPT 刚出来时,OpenAI 在博客里说用了强化学习,我第一反应就是:这套东西太复杂了,我应该能只靠 SFT 复现差不多的效果。后来 Alpaca 这个项目,某种程度上也是在验证这个想法——试试看只用行为克隆能不能做出来。很多人那时都觉得 RL 顶多就是个“蛋糕上的樱桃”,不是主菜。但现在看来,当模型本身大到一定程度、已经拥有不错的“世界先验”之后,RL 就开始真正变得可用了。这不只发生在 LLM 上,机器人领域也开始进入这个阶段:以前 RL 很不稳定,但现在有了足够强的大模型做底座,它突然开始管用了。真正困难的地方主要有两类。第一类是基础设施问题。RL 本质上要大量采样模型输出,再评估哪些对、哪些不对,这件事计算成本非常高,而且必须在很大规模上做。第二类是机器学习本身的问题。尤其当你训练的是 Agent 系统时,奖励往往只在一整条长 rollout 的最后才出现。也就是说,你只知道“最终成没成”,却很难判断前面哪一步是关键贡献。这就带来 credit assignment 的难题:到底是答案里的哪一部分导致你成功,哪一部分导致你失败?在机器学习里,最理想的情况当然是“我准确知道哪个动作好,就多做它”。但 Agent RL 不是这样——你往往要到整段过程结束后,才知道整体对不对,这就是它难扩展的核心原因之一。
主持人: 现在 RL 的方法名字很多,GRPO、PPO、DPO 一大堆。从开源世界看,真正有前景的是什么?
Yann: 我不能讲我们内部在用什么,但就开源世界来看,GRPO 目前看起来效果确实很好。过去大家试过很多方法,比如 PPO、DPO 等等。但现在很多人似乎都收敛到了这类相对更简单、可扩展的方案上。GRPO 一个很重要的特点是:它本质上很朴素。还是那套逻辑——多采样几个候选,判断哪个更好,然后朝更好的方向优化。机器学习里一个反复出现的规律就是:最简单、最能扩算力的方法,最后往往反而赢。从开源社区今天的发展看,RL 这块也在重复这个规律。
7
泛化、幻觉与负迁移
主持人: 听你这么描述,我会有一个感受:AI 系统不像是“严格设计出来”的,更像是“长出来”的。你怎么看?它到底是科学,还是手艺?
Yann: 这是个特别好的问题。我的感受是:最开始一定更像手艺。大家会先尝试各种东西,慢慢形成一种直觉,知道什么好使、什么不好使。等这个阶段过去,才会慢慢进入更科学的阶段。真正一开始就完全按严谨科学方法来,然后一步到位做对的情况,其实很少。现实更像是:先有人凭经验、直觉、甚至一点“炼丹感”把东西做出来;然后另一些人,或者同一批人,再用更科学的方法去理解、优化、系统化它。在机器学习里,这种“先 craft,后 science”的过程一再重复。工程能力也始终不可或缺,而且随着系统越来越复杂,研究者也越来越需要懂基础设施、懂复杂系统,而不只是会调模型。
主持人: 如果我想让模型在 computer use、Agent 编程这类任务上更强,操作方式是不是很像:围绕这个问题组织数据、定义奖励、做针对性的 RL?
Yann: 大致可以这么理解。不过我要强调,RL 只是我最熟悉、也最方便展开讲的一层,不代表只有 RL 重要。中训练、别的训练阶段同样重要,很多能力也会在这些阶段被改进去。通常的节奏是:越靠近最终模型输出的阶段,训练规模越小、迭代越快,所以人们会先从这层开始快速试。试对了,再把这些变化逐步往更深层的 pipeline 里渗透。开源世界也是一样:你看到的往往是后训练模型比新基座模型多得多,算法层面的花样也特别多。因为大家可以在这最后一层快速试错、快速改。
主持人: 那这些“锯齿感”——也就是模型在某些任务上特别优秀、在另一些任务上又不那么行——是不是就来自这种定向优化?
Yann: 有一部分是。如果你针对某一类问题做了更多优化,模型在那类场景里当然会更强。但我更倾向于认为,模型泛化不是按“领域名词”来发生的,而是按能力类型来发生的。比如一个模型如果在数学竞赛上特别强,它往往也会在编程竞赛上不差。因为这里共享的是某种底层能力模式,而不是单纯因为“数学”和“代码”是相邻领域”。反过来说,当一个模型在某种事情上很差,这种差往往会跨领域、跨语言一起出现。比如如果模型在“知道自己不知道”这件事上很差,那它通常不是只在某个学科会幻觉,而是到处都容易幻觉。
主持人: 现在大家都在谈从数学、编程扩展到整个经济体。像 GDPval 这种评测,就是在看模型在经济不同部门里的真实表现。那这种泛化到底是自然发生的,还是说你们会明确挑一个行业,再专门做数据、做中训练、做后训练?
Yann: 两者都有,但一定是主动推进的。无论是我们还是别的公司,现在都越来越清楚:目标不再只是把模型做得“抽象意义上更聪明”,而是要让产品真正提高人的生产力,进入大家的日常工作。所以团队一定会主动思考:优先做哪些行业、哪些领域最值得投入。一旦你知道“这个算法在这里能用”,真正的约束就不再只是算法本身,而是:你有没有合适的数据,有没有真正关心这个问题、又懂这个问题的人来做。而这类人并不多,所以必须做取舍。某个垂直方向如果有足够多人持续盯,它就会进步得很快;但人力始终是稀缺的。
主持人: 那如果从算法角度看,今天的 RL 已经具备跨域泛化了吗?比如你把模型在 A、B 两个领域练强了,它会不会自然带动 C?
Yann: 我会区分两种泛化。第一种是算法泛化。也就是我在 A 领域发明了某种训练办法,能不能直接拿到 B 领域继续用?从开源世界看,这种泛化看起来很好。大家拿同一个 RL 框架去做各种任务,通常都能奏效。第二种是模型能力泛化。也就是模型在某类任务上被训练之后,能不能把同一类底层能力迁移到别的领域?这也是存在的。比如你只用很少的 C++ 数据去专门训练,模型也能在 C++ 上变强,因为它预训练时已经看过大量 C++,而且更底层的编码能力是共享的。但更难的,是那些横向能力本身还没建立起来的情况。举个例子。人们很容易觉得,一个在数学竞赛、编程竞赛上特别强的模型,应该天然也能干别的复杂知识工作。但现实不是这样。因为竞赛题通常被定义得非常清楚,题目本身就把大部分必要信息都给你了;而真实世界的工作往往是欠指定的、信息不全的、需要自己先去找资源、筛信息、明确目标,然后才轮得到推理。如果模型还不具备这种“在混乱世界里先搞清楚问题到底是什么”的横向能力,那它就很难把竞赛里的强项直接泛化到咨询、金融、法律这些场景里。所以你会看到:模型一旦在“幻觉”上表现不好,往往不是某个单独领域的问题,而是所有领域都会有同样症状。
主持人: 既然提到幻觉,那幻觉是不是也可以看作一个 RL 问题?只要奖励模型在不知道时说“不知道”,是不是就能缓解?
主持人: 会不会存在这种情况:模型在某个方向上变强,反而会让另一些方向变差?
Yann: 更常见的其实不是“变强导致变差”,而是资源总量有限。你把算力、数据和人力投给了一个方向,自然就没法同样投给另一个方向。但确实也有一种更微妙的负迁移,通常发生在横向能力之间的冲突上。最典型的例子就是:显式指令跟随和隐式指令理解。比如你让模型“改这个文件”,但把文件名打错了。如果模型被训练得极端强调“严格遵守显式指令”,它真的可能会去改那个拼错名字的文件。可人类一般会意识到:你其实是打错字了。所以有些时候,显式指令跟随变强,反而会损伤对隐含意图的理解。这类横向能力之间,确实会出现彼此掣肘。
8
评测瓶颈
主持人: 如果把视角再拉大一点:今天模型在数学、代码上已经很强了,接下来要进军法律、医疗、金融和更广泛的经济活动。你觉得这条路是可行的吗?最终能达到接近的表现水平吗?
Yann: 我觉得可以。没有什么特别深层、特别本质的原因,决定模型在这些领域就永远达不到类似水平。但有两个现实上的“但是”。第一,今天做这些模型的人,大多自己就擅长代码,也天天在用代码工具。所以编码方向天然会进展更快。没有什么比“研究者自己就是高频用户”更有效的反馈闭环了。相反,如果让我去做法律方向的优化,而我对法律本身不懂,那我很难真正知道该往哪里改。第二,不同领域的可验证性不一样。像网络安全这类能力最近提升很明显,一个重要原因就是:它非常容易验证对错。你发现的漏洞是不是真的存在,测试起来很直接。所以并不是模型本身在法律、医疗这些领域做不到,而是这些领域更难训练、更难验证。短答案是:能做到;长答案是:我们对这些领域理解还不够,而且它们本身更难被 RL 优化。
主持人: 聊聊 eval。为什么评测一个模型越来越难了?
Yann: 因为模型越来越强,而任务也越来越开放。以前你可能只是在评测:“这段代码里有没有一个具体 bug?”这种题很好判,因为人类能先把 bug 全列出来,再自动比对。现在的任务变成了:“给我做一个满足 X 需求的网站。”这种题没有唯一标准答案。可能有很多种都算好的实现方式。模型变得越通用、越开放,评测就越难。还有一个问题是,模型在某些维度上已经超过了大多数人类,因此能真正准确评估它的人越来越少。再一个是文化问题。很多人天然更愿意做训练,觉得那才是“真进步”;但实际上,能否发现问题、量化进步,重要性一点不比训练低,甚至更高。只是长期以来,大家对 eval 的重视还不够。我刚加入 OpenAI 时,第一件想做的事就是数据和 eval,因为我知道这是最缺人的地方,也因此往往最有杠杆。这几年大家对数据的重视已经明显提高了,但 eval 这条线,我觉得行业整体还没重视到位。
主持人: 那 model-as-a-judge 呢?也就是让 AI 来评 AI。它是独立研究方向,还是和训练本身其实是一回事?
Yann: 本质上就是同一套方法。现在很多 eval 的做法,几乎都可以直接拿去做训练。也正因为如此,eval 会越来越难:你一旦做出一个有效评测,本质上就等于发明了一种构造训练数据的方法。接下来模型就会沿着相似能力继续被优化,很快把这个 eval 做穿。于是评测很快又失效。这也是为什么 eval 越来越难做。但 model-as-a-judge 又极其重要。因为当模型更强之后,它会成为更好的老师、更好的评审者,于是你会得到一个能力飞轮:更强的模型帮助训练更强的模型,也帮助评估更强的模型。我团队里有很多人就在做这一块,我认为这是接下来最关键的方向之一。
9
持续学习、Agent Harness 与垂直机会
主持人: 如果把时间拉到未来 12、18、24 个月,你觉得 AI 的进展会继续是连续上升,还是会再出现像今天这种“突然断点式”的体验?
Yann: 从能力曲线看,我依然认为进步大体是连续的。但用户体感上的“断点”一定还会不断出现。三四个月前,软件工程和编码已经率先出现了这种感觉。我认为这种感受会继续扩散到更多垂直领域。只是现在,大多数行业还没像软件工程那样强烈感受到模型的实用性。如果只看那些已经被重点推进的垂直方向,后续大概率还是连续进步,不太会总是出现那种巨大、全球同步感知的突变。更多时候,是局部看像跳变,拉长时间看还是一条平滑上升的曲线。至于下一个明显的体感断点具体什么时候来,我肯定没法预测。
主持人: 你怎么看“AI 加速循环”这个大命题?比如持续学习、模型不断变新、AI 帮 AI 研发……哪些是事实,哪些还是想象?
Yann: 我对持续学习(continual learning)特别兴奋,但我觉得我们还远没有把它真正做出来。当然,现在也有一些东西,比如 Codex 的 memories,这类功能是有帮助的,但离最终形态还差得远。我有个朋友很喜欢用一张图来思考这个问题:横轴是时间,纵轴是对用户提供的效用。如果今天你把一个模型直接丢进一家公司,从 Day 0 看,它可能已经比多数新员工更有用,所以起点其实挺高。问题在于,接下来它的效用曲线几乎是平的——它不会随着时间真正学会公司的知识,不会随着在这个环境里工作更久而变得越来越高效。而人类的优势在于:虽然起点低一点,但学习很快。所以如果看整条曲线下面积,很多时候人类仍然更有用。我们真正需要的是让模型的这条曲线也开始单调上升——也就是它在某个环境里待得越久,越了解这个环境,越能提供价值。我对这件事非常兴奋,也很惊讶它还没被解决。ChatGPT 刚出来时,我和朋友还在做创业,当时我们都以为 OpenAI 六个月内就会把持续学习、个性化、记忆这些事搞定。毕竟它有最多用户、最多数据。但现在三年过去了,我觉得我们仍然没到那一步。
主持人: 用最直白的话说,为什么这么难?
Yann: 说实话,我也不完全知道。直觉上,我甚至觉得如果行业真的投入足够资源,应该是能做出来的。当然,一旦进入企业记忆、组织知识这类场景,权限和隐私都会变得很复杂:什么可以在用户之间共享,什么绝对不能共享,这都是大问题。但即便只看单个用户级别,我们也还没真正把这件事做好。所以至少在我能公开讨论的层面上,我也说不清为什么它拖了这么久。
主持人: 这对创业者也很关键。过去一两年,大家先做 RAG,后来又开始做各种 Agent harness。很多人现在都在问:随着底层模型越来越强,这些“套在模型外面的一层壳”会不会被基座模型本身吃掉?
Yann: 我觉得 harness 今天当然有价值,而且能明显提升模型能力。但如果你问我的直觉:我个人不会太愿意在“通用型 harness”上押得太重,除非它就是为某个非常具体的目标服务。因为模型能力正在非常快地提升,今天有效的通用外壳,未来很可能很快要重写。如果某家公司就是做某个很垂直的任务,它可能只需要把可靠性从 80% 拉到 85%,那 harness 非常有价值。我觉得这类事情完全值得做。只是做的时候要心里有数:未来模型继续变强,这些 harness 还得继续调。如果你是想做一个长期稳定、普适性的总 harness,我会更怀疑它的持久性。但反过来说,如果任务够具体,我甚至觉得行业今天对 harness 的投入还不够。很多价值其实还丢在地上没捡起来。如果我们把今天已有的模型完全冻结住,只是在 harness 上下狠功夫,再配合更好的训练,我甚至觉得很多领域的人已经会有“这就是 AGI 了”的感受。只是现实不是这样——模型不会被冻结,它会一直进化。所以 final harness 长什么样,我们今天其实也还不知道。
主持人: 说到垂直应用,像 GDPval 这样的评测已经在覆盖更多行业,telecom 场景里是复杂客服流程,finance agent 也已经能自动完成 88.5% 的投行建模任务,Office QA Pro 也有 51.1% 这样的成绩。随着模型一步步往这些行业渗透,你还会鼓励大家继续做应用吗?还是说最后这些能力都会被模型本身吞进去?
Yann: 我会非常明确地说:还有巨大空间,而且会长期存在。很多人会把“智能”或者说“原始能力”当成真正的护城河,但我不完全这么看。绝大多数时候,真正的瓶颈其实是最后一公里。所谓最后一公里,可能是权限管理,是系统连接器,是如何让模型接到正确数据源,是怎么把模型真正嵌进某个具体工作流里。这些事情非常重要,而且高度垂直。OpenAI 会更专注在更一般、更横向的能力上;而其他公司、尤其创业公司,完全可以、也应该去做更垂直的方向,把现有模型的价值榨到极致。所以我非常鼓励大家继续做应用、做垂直场景、做最后一公里。就算有一天基础模型的横向进步真的停下来,我们也许会更多自己去做这部分;但至少现在,离那一步还远。
主持人: 这对创业生态至少是个很积极的结论。今天聊得非常过瘾,谢谢你。
Yann: 谢谢邀请。






