科技·商业·财经

Claude Opus 4.8发布,Mythos即将上线

   时间:2026-05-29 11:03 作者:快讯

Claude 更新了

凌晨,Anthropic 把旗舰模型 Opus 4.8 发布

从官方的表述上来说,这是一个基于 4.7 的常规升级:跑分平稳上行、Agent 能力加强,价格不变,今天可用

我简单试了试,中文分词还是很奇怪,缺如官方所说:常规升级

然后:Opus 4.6 被下了 ╮(╯▽╰)╭

自动播放

随着模型升级,还有三个改动:

Claude 网页版上多了一个控制 Claude Effort 的开关,能改变思考强度

Claude Code 新加了 dynamic workflows,能一口气拉起几百个子 Agent 一起干活

Opus 4.8 的 fast 模式,2.5 倍速跑,价格比上一代 Fast 便宜了三分之二

加量不加价

Opus 4.8 的价格与 4.7 一致

常规调用还是每百万 input token 5 美元,output token 25 美元,跟 4.7 完全一样。API 里的模型名是 claude-opus-4-8,今天起全平台都能调

跑分如下

对此,Anthropic 自己给了对比,Opus 4.8 在大多数项目上领先 4.7,也领先了 GPT-5.5 和 Gemini 3.1 Pro

GPT-5.5 赢的那个栏目,需要配合 Codex CLI

在编程任务 SWE-Bench Pro 上,Opus 4.8 拿了 69.2%,4.7 是 64.3%。多学科推理的 Humanity's Last Exam,不带工具 49.8%,带工具 57.9%,两档都比 4.7 高。电脑操作的 OSWorld-Verified 到了 83.4%,知识工作的 GDPval-AA 拿了 1890 分,4.7 是 1753

终端编程 Terminal-Bench 2.1 这一项,Opus 4.8 是 74.6%,GPT-5.5 报的是 78.2%。这里有个口径要交代,跑分用的是 Terminus-2 公开测试框架,GPT-5.5 换成自家 Codex CLI 框架报出来是 83.4%。OSWorld 这次 Anthropic 改了测法,把 4.7 的分回填成了 82.3%,更贴近真实表现。金融分析 Finance Agent v2 上 Opus 4.8 是 53.9%

主打诚实

对于 Opus 4.8,Anthropic 专门重点强调了:这孩子主打一个实诚,在 Agent 里不会瞎汇报(比如没干完活,说自己干完了)

按官方评测,Opus 4.8 尝试蒙混过关的概率,只有 4.7 的 1/4,它更愿意主动标出自己拿不准的地方,少了凭空断言。而在「错误对齐行为」这项打分上,Opus 4.8 几乎贴到了 Mythos Preview,明显好于 Opus 4.7 和 Sonnet 4.6 都明显更高

越矮越好,这次 Opus 蹲到了 Mythos 边上

按照 Anthropic 对齐团队的判断,Opus 4.8 在「支持用户自主、为用户最大利益行事」这类亲社会特质上达到了新高

按周的活按天干

跟模型一起发的 dynamic workflows,这是 Claude Code 里的新东西,可以理解为「赛博包工头」

包工头 Claude,带着一群 Claude 干活

dynamic workflows 擅长做的,是先按你的需求把任务拆开,铺成几十上百个并行的子 Agent,每个结果先验证再汇总,最后给你一个统一答复。比如去处理那些又老又乱的屎山代码,或者跨服务器去找几百个文件

在运行的过程中,它还会派出对抗性的 Agent,专门去试着推翻已有结论,一直迭代到答案收敛

正如上面的图片,你能看到每个子 Agent 用的是所调用的模型(Opus 4.8,挂着 1M context 的上下文),token 用量、调了几次工具、花了多少秒...各类信息,同时也能进度边跑边存,中途断了能从断点接着跑,不用从头来

作为实例,Jarred Sumner 用 dynamic workflows 把 Bun 从 Zig 移植到了 Rust,现有测试套件 99.8% 通过,大约 75 万行 Rust 代码,从第一次提交到合并,11 天

具体怎么干的。一个 workflow 先给 Zig 代码里每个结构体字段,都映射出对应的 Rust 生命周期。下一个 workflow 把每个 .rs 文件写成对应 .zig 文件的等价移植,几百个 Agent 并行,每个文件配两个审查者。然后一个修复循环驱动着构建和测试,跑到两边都干净为止。移植落地后,一个过夜的 workflow 又去处理多余的数据拷贝,每处都开了一个 PR 等人做最终 review

dynamic workflows 今天起以研究预览的形式上线,覆盖 Claude Code 的命令行、桌面端和 VS Code 插件,开放给 Max、Team 和 Enterprise(管理员开启后)方案,也上了 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry

自定义 effort

在之前 opus4.7 的时候,网页版的 Claude 是不能够选 effort 的,只有一个 adaptive thinking 的开关,而在这次的更新中,你是能手动决定这个数值的,默认是 high

回到最开始的图,看右侧

还有几件小事

除了模型本身,这次还有两个改动

Messages API 现在允许在 messages 数组里塞 system 条目了。你可以在任务跑到一半的时候更新 Claude 的指令,在不打断 prompt 缓存的前提下,更新它的权限、token 预算或者环境上下文

Opus 4.8 的 fast 模式(2.5x 速度)降价了,之前 4.7 的时候是 $30/$150,现在是 $10/$50,单位是每百万 token

Mythos 在路上

在官方公告的最后,还提到:Mythos 要来了

这是 Anthropic 家目前最牛逼的模型,目前只给少数几家厂商在内部使用。在过去的一个月中,这个模型帮助从各种知名软件软件里,找出了一万多个高危或严重漏洞

一万个漏洞找出来了,补丁还在后面排队

Anthropic 还在为这个模型设计护栏,预计未来几周内,就能把 Mythos 级别的模型带给所有客户

另一方面,Anthropic 还在开发并放出一批能力接近 Opus、但成本更低的模型

在哪儿能用上

Opus 4.8 今天全平台可用,价格和 4.7 一致

官方公告:anthropic.com/news/claude-opus-4-8

Dynamic workflows:claude.com/blog/introducing-dynamic-workflows-in-claude-code

Project Glasswing / Mythos:anthropic.com/research/glasswing-initial-update

API 模型名:claude-opus-4-8

 
 
更多>同类内容
全站最新
热门内容