当顶级人工智能在编码领域屡创佳绩时,它们在生物学领域却频频受挫。这并非因为模型不够先进,而是科学数据库的设计初衷仅服务于人类操作,导致智能体在数据检索过程中举步维艰。近期,Anthropic公司发布的科研报告揭示了一个令人震惊的现象:即便是最先进的科研智能体,在执行看似简单的病毒序列计数任务时,也难以给出稳定准确的答案。
研究人员选取了Claude、GPT、Biomni和Edison Analysis等知名智能体,要求它们从NCBI Virus数据库中统计符合特定条件的病毒序列数量。结果令人意外:所有模型均无法稳定输出正确结果,同一任务多次执行时,答案差异甚至达到数十倍。以Claude Sonnet 4为例,在三次检索埃博拉病毒序列的任务中,分别返回了106条、15条和5条的结果,而实际正确数量应为266条。
这种不稳定的表现源于生物学数据库的特殊架构。NCBI Virus本质上是一个面向人类的网页门户,其复杂的过滤逻辑隐藏在网页交互层中,并未通过程序接口对外开放。智能体只能调用底层原始API,但这些接口无法完整复现网页端的过滤语义。例如,"采样地在非洲"这一条件,在网页端通过勾选框即可实现,但智能体需要自行处理数十个国家的元数据对齐问题,稍有不慎就会导致数据遗漏或错误。
这种数据检索的不确定性在疫情分析中可能产生严重后果。以2026年刚果(金)爆发的埃博拉疫情为例,研究人员需要比对新病毒与历史基因组数据来评估诊断试剂的有效性和治疗方案的适用性。当使用存在数据遗漏的智能体检索结果进行分析时,疫情起源时间的推算可能出现数十年偏差,抗体疗法有效性评估也会得出完全不同的结论。这种错误在科研领域尤为危险,因为它往往难以被立即察觉。
问题的根源在于科学基础设施的"历史包袱"。生物学数据库如同为马车设计的老城,其窄巷急弯的布局难以适应智能体这辆"汽车"的行驶需求。相比之下,软件领域的数据系统则像专为车辆建造的新城,拥有标准化的道路和交通信号。这种差异导致代码智能体发展迅速,而生物智能体却停滞不前。NCBI Virus的检索流程需要人工在网页上勾选多个条件,这种设计对人类友好,却让智能体难以直接调用。
为解决这一难题,Anthropic与NCBI合作开发了gget virus系统。这个确定性检索层将网页端的过滤逻辑转化为可复现的程序化操作,能够自动判断哪些过滤条件可通过API实现,哪些需要本地校验。该系统支持批量数据完整下载,避免结果被截断,同时将数据传输量压缩超过98%。在测试中,接入gget virus后所有智能体的准确率均提升至90%以上,GPT-5.5的准确率更是达到99.7%,运行稳定性显著增强。
这项突破的意义不仅限于病毒学领域。在生物医学的各个分支,都存在着类似"为人类设计而非为智能体设计"的基础设施问题。当智能体开始大规模参与科研工作时,数据检索的可靠性变得至关重要。gget virus的出现表明,通过构建专门的确定性工具层,即使使用成本较低的模型也能获得稳定可靠的结果。这种解决方案为其他科学领域提供了重要参考,显示出改进数据基础设施比单纯追求模型性能提升更具战略价值。
在360次测试运行中,GPT-5.5曾有一次在未受提示的情况下自动使用gget virus,并取得了唯一正确的结果。这一细节生动展现了工具价值的重要性。当智能体能够依赖稳定的数据检索系统时,科研人员就不必再为数据准确性担忧,可以将更多精力投入到假设生成和实验设计等创造性工作中。这种转变预示着科学研究范式的潜在变革,其影响可能远超单纯的技术进步。






