中国传统术数领域迎突破！Tianfu Agent逼近人类高手水平

时间：2026-05-25 23:17 作者：格隆汇

当国际顶尖的通用大模型面对中国传统术数领域的四选一专业题目时，其表现令人意外。在由香港某术数机构主办的赛事题库基础上构建的评测基准Mingli-Bench中，主流大模型的准确率普遍徘徊在23%至40%区间，这一数据与随机猜测的25%基准线相差无几。研究团队通过优化系统架构，使专用智能体Tianfu Agent的准确率提升至50%，接近人类顶尖选手53.5%的平均水平。

评测过程中，研究团队为避免模型产生计算误差，特意在提示词中预置了完整的盘面数据，仅考察推理能力而非计算能力。实验采用马斯克命盘作为测试案例，特别指出其出生日期需根据南半球节气进行转换。结果显示，即便在信息高度可控的条件下，通用模型仍难以突破基础准确率瓶颈，这暴露出大模型在专业领域应用的结构性缺陷。

针对这一困境，研发团队构建了包含200余个原子工具的工程系统，创新性地将工具按"可理解性"和"可穷举性"分为四级管理。自动注入型工具直接加载基础概念，按需调用型工具处理生克关系等动态计算，转译调用型工具通过预设翻译层处理专业术语，触发注入型工具则由特定子智能体专属调用。这种分级机制有效解决了工具过载导致的选择退化问题，使模型在不同推理阶段能动态调用适配工具集。

在规则处理方面，系统将百余条相互矛盾的术数规则封装为带元数据的可调用函数。每个函数包含适用场景、时间跨度等标注信息，推理时仅注入满足条件的规则组件。这种设计将模型从"记忆规则"转变为"调用规则"，使复杂规则体系转化为可工程化管理的模块组件。例如子平母法的百余条规则被拆解为独立函数，通过优先级参数控制调用顺序。

针对专业领域缺乏自动验证手段的痛点，研究团队开发了三层不确定性量化机制。工具输出层通过内置算法评估非确定性工具的置信度，子智能体层利用大模型自评推理结论的显著性，多流派合参层则通过人工经验加权调和矛盾结论。这种量化体系虽不能完全替代单元测试，但为决策系统提供了关键的不确定性参考，有效降低了长链路推理中的偏差累积。

该系统的工程实践为垂直领域智能体开发提供了新范式。在医疗、法律等规则密集型领域，工具化架构能直接弥补训练语料不足的缺陷。四级工具分类机制为管理大规模专业工具提供了可复制的解决方案，而规则函数化改造则解决了大模型长上下文记忆的固有缺陷。研究证实，通过结构化工程改造，专用智能体在特定领域的表现可显著超越通用大模型，这种技术路径在编程领域之外同样具有可行性。

更多>同类内容

从离散到连续：大语言模型突破“Token枷锁”能否叩响AGI之门？

05-25

字节重启手机研发？从招聘信息看其布局AI Agent终端新动向

05-25

华为终端官宣：6月1日14:30将举行nova 16系列及全场景新品发布会

05-25

“死了么”App升级更名为“在么在么”，新名称商标申请已在进行中

05-25

图灵量子实现光量子计算全栈国产化适配国产GPU生态再进一步

05-25

力箭一号遥十四火箭出厂：将执行“一箭8星”发射任务

05-25

原华为云AI算法创新Lab主任朱森华创业，押注具身模型

05-25

谷歌CEO访谈：谷歌多模态领先，但Coding落后了

05-25

华为提出“韬定律”，寻找国产芯片自己的进化方向

05-25

沃尔沃全新ES90/EX90车型5月29日上市，预售42.99万起

05-25

本田推出Super-ONE：纯电动K-Car，最轻1090kg

05-25

X打击“内容搬运工”，确保曝光量、收益归原作者

05-25

2026款比亚迪海狮06 DM-i于5月26日上市，展车已到店

05-25

荣耀WIN Turbo手机官宣：搭载10000mAh青海湖电池

05-25

宁德时代×地上铁达成合作，首个轻卡换电生态投运

05-25

点击查看更多 +

全站最新

通富微电：借先进封装东风，与AMD携手共进，业绩增长潜力无限

联想百应AI主机成都发布：破局企业算力痛点，共启AI商用新篇章

小米SU7亮相西班牙塞维利亚疑似为欧洲市场上市做路测准备

户外消费新趋势：年轻人引领潮流，国货崛起折扣渠道成新宠

2026年淘宝自动发货软件升级转型：多款主流工具助力虚拟商户高效运营

海博思创携手华为数字能源共探新型储能等领域合作新路径

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号