科技·商业·财经

新加坡国立大学新突破:AI智能体处理长文本如何兼顾速度与精度?

   时间:2026-05-29 02:00 作者:互联网

新加坡国立大学研究团队近日提出一种名为Mix-Quant的AI推理加速框架,针对需要处理海量文本并频繁交互的智能体应用场景,通过分阶段差异化量化策略实现速度与精度的平衡。该研究以预印本形式发布,论文编号arXiv:2605.20315,实验数据显示其预填充阶段平均加速达3倍,同时保持解码阶段输出质量几乎无损。

在AI执行复杂任务时,如编写代码、调用工具或多轮对话,模型需反复读取全部历史记录和中间结果。研究团队发现,在软件工程任务中,AI需处理22.8万词输入却仅生成3.9万词输出,输入规模可达输出的6倍;在长期记忆管理场景中,这一比例更飙升至36倍。这种"预填充-解码"双阶段架构中,预填充阶段需并行处理全部文本,计算量巨大;解码阶段则逐词生成输出,对精度要求极高。

传统量化技术通过降低数字精度(如FP4仅用4位二进制表示数字)来加速计算,但全程量化会导致输出质量显著下降。研究团队通过实验证明,解码阶段误差会产生"雪球效应"——单个错误指令可能引发后续推理全面崩溃,尤其在数学推理、工具调用等需要严格逻辑的任务中表现明显。相比之下,预填充阶段的量化误差因注意力机制的高度集中性(仅3.125%文本承载95.8%注意力权重),对最终结果影响相对有限。

基于上述发现,Mix-Quant采用"预填充激进量化+解码保持高精度"的混合策略。预填充阶段使用英伟达Blackwell系列显卡专属的NVFP4格式,通过两级缩放机制(局部区块对比度调整+全局亮度校准)在压缩数据的同时保留关键信息。解码阶段则维持BF16标准精度,确保每步推理的准确性。系统架构上,该框架将预填充与解码工作分离部署,通过NIXL高速传输机制衔接两个阶段,避免精度转换开销。

实验测试覆盖Qwen3-8B、Gemma-4-31B等四种主流模型,在NVIDIA RTX 5090显卡上显示:Qwen3-8B模型预填充阶段加速2.21-3.51倍,综合准确率恢复至原始版本的99%;Gemma-4-31B-it模型在数学推理基准上取得与BF16原版几乎相同的成绩。分阶段消融实验进一步验证,仅量化解码阶段的性能损失(3.68分)明显高于仅量化预填充阶段(2.10分),证实了差异化量化策略的合理性。

研究团队指出,Mix-Quant虽存在预填充量化误差对KV缓存的间接影响,但其3倍加速效果在多数应用场景中已具实用价值。该框架的通用性得到验证——不同架构、规模的模型均能受益,且模型规模越大,量化鲁棒性越强。目前研究代码已开源,支持开发者基于NVFP4或其他量化格式(如INT4、FP8)进行扩展。

针对技术细节,研究团队解释称,NVFP4的量化过程包含全局缩放因子与局部区块缩放因子的双重校正,这种设计使其无需复杂校准算法即可实现高效压缩。在应用场景方面,该技术特别适用于输入文本远超输出的任务,如长文档处理、多轮对话管理等,可显著降低服务器运算负载,提升单位硬件的用户服务能力。

当被问及解码阶段是否可能进一步加速时,专家表示,Mix-Quant当前聚焦解决预填充瓶颈,未来可结合稀疏注意力、KV缓存压缩等技术实现全流程优化。另有研究者提出,预填充阶段内部不同网络层对量化的敏感度可能存在差异,探索"层级别"量化策略或成为下一阶段研究方向。

 
 
更多>同类内容
全站最新
热门内容