中国传统术数领域新突破!Tianfu Agent逼近人类高手胜率

   时间:2026-05-25 23:57 来源:快讯作者:钟景轩

在专业术数领域,主流大模型如Claude、GPT等遭遇了前所未有的挑战。面对几乎没有信息泄漏的术数大赛选择题库,这些模型的准确率普遍徘徊在23%至40%之间,甚至低于四选一选择题的随机猜测线25%。然而,一个名为Tianfu Agent的系统却脱颖而出,将准确率提升至50%,逼近人类顶尖选手的平均水平。

这一突破性的成果源于DestinyLinker研究团队基于术数大赛官方题库构建的评测集基准Mingli-Bench。该团队对通用大模型进行了“让步”设计,在Prompt中提供预计算的盘面数据,以避免计算幻觉干扰,直接考察模型的推理能力。然而,即便如此,主流模型的表现仍不尽如人意。技术报告和测试结果在社交平台上引发了广泛关注,相关开源仓库也吸引了大量开发者。

为了突破这一瓶颈,研究团队开发了Tianfu Agent系统,构建了一套针对中国传统术数领域的工程化解决方案。该系统整合了200多个原子工具、三大流派规则函数库,并通过多Sub-Agent协作机制和置信度量化体系,实现了推理链路的动态优化。最终,Tianfu Agent在评测中取得了50%的截尾准确率,显著优于通用模型,并接近人类顶尖选手的53.5%。

在工程实现上,Tianfu Agent面临的首要挑战是工具管理。通用Agent通常仅需十几个工具,而术数领域需要200多个工具的协同运作。研究团队通过四级可见性控制机制解决了这一问题:根据工具的“LLM可理解性”和“可穷举性”,将工具分为自动注入型、按需调用型、转译调用型和触发注入型。不同推理阶段和Sub-Agent看到的工具集动态调整,避免了选项过载导致的选择退化。

术数领域的规则繁杂且矛盾,进一步增加了推理难度。研究团队将每条规则封装为带元数据的可调用函数,人类专家预先标注适用场景、时间跨度和优先级。函数内部可调用LLM,输入盘面状态后返回结论和置信度。这一设计将LLM从“记规则的考生”转变为“调规则的工程师”,使推理路径可控且可追溯。

缺乏“单元测试”是专业领域推理的普遍难题。Tianfu Agent通过三层不确定性量化弥补了这一缺陷:工具输出层由算法提供置信度评估;Sub-Agent层由LLM自评推理结论的显著性;多流派合参层通过人工经验加权调和矛盾结论。尽管无法完全替代自动验证,但这一方案为上层决策提供了量化参考,减少了结论堆砌的风险。

Tianfu Agent的设计哲学在于将工具、规则和子推理流程统一为可调用的工程构件。这一思路对垂直领域Agent开发具有借鉴意义:在规则密集但语料稀缺的领域,工具化范式能直接弥补模型的知识盲区;当工具数量膨胀时,动态管理机制可避免选择退化。研究团队认为,这一框架不仅适用于术数领域,也可推广至医疗、法律等需要专业推理的场景。

 
 
更多>同类内容
全站最新
热门内容