滚动资讯

当前位置：网界 > 行业动态 > 正文内容

新加坡国立大学新突破：AI智能体处理长文本如何兼顾速度与精度？

时间：2026-05-29 02:00 作者：互联网

新加坡国立大学研究团队近日提出一种名为Mix-Quant的AI推理加速框架，针对需要处理海量文本并频繁交互的智能体应用场景，通过分阶段差异化量化策略实现速度与精度的平衡。该研究以预印本形式发布，论文编号arXiv:2605.20315，实验数据显示其预填充阶段平均加速达3倍，同时保持解码阶段输出质量几乎无损。

在AI执行复杂任务时，如编写代码、调用工具或多轮对话，模型需反复读取全部历史记录和中间结果。研究团队发现，在软件工程任务中，AI需处理22.8万词输入却仅生成3.9万词输出，输入规模可达输出的6倍；在长期记忆管理场景中，这一比例更飙升至36倍。这种"预填充-解码"双阶段架构中，预填充阶段需并行处理全部文本，计算量巨大；解码阶段则逐词生成输出，对精度要求极高。

传统量化技术通过降低数字精度（如FP4仅用4位二进制表示数字）来加速计算，但全程量化会导致输出质量显著下降。研究团队通过实验证明，解码阶段误差会产生"雪球效应"——单个错误指令可能引发后续推理全面崩溃，尤其在数学推理、工具调用等需要严格逻辑的任务中表现明显。相比之下，预填充阶段的量化误差因注意力机制的高度集中性（仅3.125%文本承载95.8%注意力权重），对最终结果影响相对有限。

基于上述发现，Mix-Quant采用"预填充激进量化+解码保持高精度"的混合策略。预填充阶段使用英伟达Blackwell系列显卡专属的NVFP4格式，通过两级缩放机制（局部区块对比度调整+全局亮度校准）在压缩数据的同时保留关键信息。解码阶段则维持BF16标准精度，确保每步推理的准确性。系统架构上，该框架将预填充与解码工作分离部署，通过NIXL高速传输机制衔接两个阶段，避免精度转换开销。

实验测试覆盖Qwen3-8B、Gemma-4-31B等四种主流模型，在NVIDIA RTX 5090显卡上显示：Qwen3-8B模型预填充阶段加速2.21-3.51倍，综合准确率恢复至原始版本的99%；Gemma-4-31B-it模型在数学推理基准上取得与BF16原版几乎相同的成绩。分阶段消融实验进一步验证，仅量化解码阶段的性能损失（3.68分）明显高于仅量化预填充阶段（2.10分），证实了差异化量化策略的合理性。

研究团队指出，Mix-Quant虽存在预填充量化误差对KV缓存的间接影响，但其3倍加速效果在多数应用场景中已具实用价值。该框架的通用性得到验证——不同架构、规模的模型均能受益，且模型规模越大，量化鲁棒性越强。目前研究代码已开源，支持开发者基于NVFP4或其他量化格式（如INT4、FP8）进行扩展。

针对技术细节，研究团队解释称，NVFP4的量化过程包含全局缩放因子与局部区块缩放因子的双重校正，这种设计使其无需复杂校准算法即可实现高效压缩。在应用场景方面，该技术特别适用于输入文本远超输出的任务，如长文档处理、多轮对话管理等，可显著降低服务器运算负载，提升单位硬件的用户服务能力。

当被问及解码阶段是否可能进一步加速时，专家表示，Mix-Quant当前聚焦解决预填充瓶颈，未来可结合稀疏注意力、KV缓存压缩等技术实现全流程优化。另有研究者提出，预填充阶段内部不同网络层对量化的敏感度可能存在差异，探索"层级别"量化策略或成为下一阶段研究方向。

更多>同类内容

Intel锐炫G3系列处理器正式登场：专为掌机设计首批合作机型即将上市

05-29

汪涛解读：中国AI借丰富场景优势，从中美并跑到应用领域局部领跑

05-29

大模型训练易“失控”？Qluon公司“飞控系统”为AI训练保驾护航

05-29

北大联合小米团队：从网络视频中“淘金” 打造最大GUI预训练数据集

05-29

亚马逊加速布局AI购物赛道，行业竞争白热化，通用AI与电商谁主沉浮？

05-29

开源鸿蒙：代码规模与伙伴数量双增长，迈向产业规模化新征程

05-29

捷停车“AI+停车经营”助力深圳方大城：盘活车位资源，实现管理经营双提升

05-29

亚马逊加速布局AI购物赛道，行业竞争白热化，通用AI与电商争夺新入口

05-29

2026仿真树灯行业新变局：从照明单品到场景美学服务的深度转型

05-29

泸溪河获超亿元融资引关注，新总经理加盟，能否凭爆品冲向万店规模？

05-29

2026郑州化妆品展柜行业洞察：需求升级、工艺革新与服务商格局解析

05-29

迅雷2026年Q1财报亮眼：总营收9860万美元，出海业务成新增长引擎

05-29

北京科锐回应特斯拉传闻，多家公司计划回购，*ST亚太即将“摘星脱帽”

05-29

资本热潮涌动新能源重卡赛道，2026年多企业融资超80亿引关注

05-29

光华科技2025年营收近30亿研发投入成果丰硕净利润同比大增150.70%

05-29

点击查看更多 +

全站最新

AI接管工作流时代：核心知识放云端，是便利还是“失控”危机？

百度百万年薪抢AI人才，布局“组织AI化”开启管理新范式实验

贝壳亮相世界智能产业博览会：数智赋能居住服务，引领行业智能化升级新潮流

开源鸿蒙：从技术开源迈向产业成势，开启智能终端新生态规模化篇章

5月27日资讯速递：问界M9发布，快手AI漫剧营销创新高，段永平增持泡泡玛特

联想百应AI主机携生态战略亮相，以“软硬服”一体助力企业AI转型加速

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号