当国际顶尖的通用大模型面对中国传统术数领域的四选一专业题目时,其表现令人意外。在由香港某术数机构主办的赛事题库基础上构建的评测基准Mingli-Bench中,主流大模型的准确率普遍徘徊在23%至40%区间,这一数据与随机猜测的25%基准线相差无几。研究团队通过优化系统架构,使专用智能体Tianfu Agent的准确率提升至50%,接近人类顶尖选手53.5%的平均水平。
评测过程中,研究团队为避免模型产生计算误差,特意在提示词中预置了完整的盘面数据,仅考察推理能力而非计算能力。实验采用马斯克命盘作为测试案例,特别指出其出生日期需根据南半球节气进行转换。结果显示,即便在信息高度可控的条件下,通用模型仍难以突破基础准确率瓶颈,这暴露出大模型在专业领域应用的结构性缺陷。
针对这一困境,研发团队构建了包含200余个原子工具的工程系统,创新性地将工具按"可理解性"和"可穷举性"分为四级管理。自动注入型工具直接加载基础概念,按需调用型工具处理生克关系等动态计算,转译调用型工具通过预设翻译层处理专业术语,触发注入型工具则由特定子智能体专属调用。这种分级机制有效解决了工具过载导致的选择退化问题,使模型在不同推理阶段能动态调用适配工具集。
在规则处理方面,系统将百余条相互矛盾的术数规则封装为带元数据的可调用函数。每个函数包含适用场景、时间跨度等标注信息,推理时仅注入满足条件的规则组件。这种设计将模型从"记忆规则"转变为"调用规则",使复杂规则体系转化为可工程化管理的模块组件。例如子平母法的百余条规则被拆解为独立函数,通过优先级参数控制调用顺序。
针对专业领域缺乏自动验证手段的痛点,研究团队开发了三层不确定性量化机制。工具输出层通过内置算法评估非确定性工具的置信度,子智能体层利用大模型自评推理结论的显著性,多流派合参层则通过人工经验加权调和矛盾结论。这种量化体系虽不能完全替代单元测试,但为决策系统提供了关键的不确定性参考,有效降低了长链路推理中的偏差累积。
该系统的工程实践为垂直领域智能体开发提供了新范式。在医疗、法律等规则密集型领域,工具化架构能直接弥补训练语料不足的缺陷。四级工具分类机制为管理大规模专业工具提供了可复制的解决方案,而规则函数化改造则解决了大模型长上下文记忆的固有缺陷。研究证实,通过结构化工程改造,专用智能体在特定领域的表现可显著超越通用大模型,这种技术路径在编程领域之外同样具有可行性。






