百度开源Unlimited OCR新模型：创新机制助力长文档解析，作者身份引猜测-网界

国产开源OCR领域迎来重大突破，百度最新发布的Unlimited OCR模型在长文档处理能力上实现质的飞跃。该模型采用革命性的参考滑动窗口注意力机制（R-SWA），在OmniDocBench基准测试中以93.92%的成绩刷新行业纪录，较前代DeepSeek OCR提升6.22个百分点。

传统OCR系统处理长文档时普遍采用"分页处理+结果拼接"的折中方案，这种模式如同机械抄写员般逐页重置上下文，导致显存占用随文档长度指数级增长。Unlimited OCR突破性地将人类抄写行为数字化：模型不再强制记忆全部历史内容，而是像专业抄写员那样仅保留当前工作所需的局部信息，配合完整的视觉参考实现连续解析。

技术团队创新性设计的R-SWA机制包含双重注意力路径：在视觉维度，模型始终保持对完整图像的全局感知；在文本维度，仅保留最近128个生成Token参与注意力计算。这种"全局视觉+局部文本"的混合架构，使模型在处理40页以上文档时仍能保持稳定性能，Distinct-35指标高达96.90%，编辑距离控制在0.1069以下。

实验数据显示，该模型在生成6000个Token时，推理速度较传统方案提升35%，且延迟波动幅度显著降低。其核心突破在于将KV Cache设计为固定长度队列，通过动态更新机制确保显存占用恒定，从根本上解决了长序列处理中的内存爆炸问题。这种设计使得模型在处理超长文档时，推理效率几乎不受输入长度影响。

该成果的技术辐射效应远超OCR领域。研究团队指出，R-SWA机制本质上是对注意力机制的重新定义，其"选择性遗忘"设计为长上下文处理提供了全新范式。相比传统扩容方案，这种生物仿生设计更符合人类认知规律，有望在语音识别、机器翻译等序列处理任务中引发连锁创新。

项目GitHub页面披露的技术路线图显示，团队正开发128K上下文版本，并探索构建"预填池"机制实现历史状态的按需调用。这种技术演进方向与DeepSeek OCR2形成战略呼应，前者聚焦视觉信息的高效理解，后者深耕长序列的记忆管理，共同构建起从感知到认知的完整技术链条。

值得关注的是，技术报告中出现的一位匿名作者"YY"引发行业热议。通过分析技术脉络和代码贡献，多位研究者推测该神秘人物可能是OCR领域资深专家魏浩然。这位曾主导GOT-OCR2.0开发的科学家，其研究轨迹与Unlimited OCR展现的技术特征存在显著关联，但截至目前尚未获得官方确认。

作为东风奕派专为务实爱家的中青年男性打造的车型，纳米06智趣版聚焦领航+分、奢享+舱、续航+码三大核心升级，将高端智能科技与越级舒适体验融为一体，为用户带来“加舱又加码，智有新天地”的出行新体验。立足家庭用户…

他同时表示，软银将通过汇聚各垂直领域顶级机器人企业，成为“压倒性世界第一的机器人公司”，并提及2026年计划完成收购瑞士工业巨头ABB旗下机器人业务。 2025年10月，瑞士工业巨头ABB集团表示已与日本软…

嘉实中证机器人ETF成立于2024年4月16日，业绩比较基准为中证机器人指数收益率。该基金成立以来收益68.15%，今年以来收益13.04%，近一月收益-5.14%，近一年收益38.09%。田光远自2024…

华夏人工智能ETF联接C成立于2020年6月16日，业绩比较基准为中证人工智能主题指数收益率×95%+人民币活期存款税后利率×5%。该基金成立以来收益87.03%，今年以来收益34.44%，近一月收益5.7…

万家经济新动能混合A成立于2018年2月7日，业绩比较基准为沪深300指数收益率×70%+上证国债指数收益率×30%。该基金成立以来收益131.42%，今年以来收益15.70%，近一月收益-1.41%，近一…

近日，阿里巴巴合伙人、高德董事长刘振飞在阿里内网发布的一篇《手里有秧，才能确保未来有粮》的文章，意外曝光了一场阵容堪称“豪华”的团建活动。十几位平日里在商业世界指点江山的精英，忙活了一整个上午，才“歪歪扭…

vivo X Fold6具备全场景全面可靠性，采用了第三代半固态电池，拥有7000mAh大容量，在零下20度的低温环境下可提供稳定续航。在影像方面，vivo X Fold6在折叠屏层面实现突破，采用2亿像…

据企查查APP，近日，钉钉科技有限公司发生工商变更，陈航卸任法定代表人、董事、经理。 6月11日，阿里巴巴宣布钉钉管理层调整，陈航卸任钉钉CEO，1992年出生的技术极客陈宇森接棒。接任钉钉CEO后，陈宇森成…

就在小微灰度测试前不久，微信团队刚刚更新了微信AI支付Skills，并且还开放了微信支付卡，AI可以直接使用放在支付卡里的钱，进而跳过确认阶段。因为微信做AI的逻辑跟所有大厂都不一样，它不需要把小微当成入…

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号