科技·商业·财经

百度PaddleOCR-VL-1.6发布:全球领先准确率,复杂文档解析再升级

   时间:2026-06-03 03:34 作者:快讯

在多模态大模型技术竞争日益激烈的当下,一款名为PaddleOCR-VL-1.6的开源文档识别系统引发行业关注。该系统由文心大模型团队研发,在权威评测基准OmniDocBench v1.6中以96.33%的准确率刷新全球纪录,超越包括Gemini-3-Pro、GPT-5.2在内的多款国内外主流模型,成为复杂文档解析领域的性能标杆。

这款新模型延续了0.9B参数的轻量化架构设计,却实现了核心识别能力的显著突破。通过创新的模型驱动数据构建机制与渐进式训练策略,系统在表格结构解析、古籍文字识别、生僻字处理、印章定位及图表信息提取等复杂场景中展现出卓越性能。在Real5-OmniDocBench真实场景评测中,该系统以93.19%的综合指标持续领跑,有效解决了扫描件噪点、文档弯折变形、屏幕拍照畸变、光照不均以及倾斜文档等长期困扰行业的解析难题。

作为文心大模型多模态技术体系的重要组成部分,PaddleOCR系列已支持超过100种语言的文字识别,服务范围覆盖全球170余个国家和地区。此次升级版本保持了与前代系统的架构兼容性,企业用户和开发者无需修改现有代码即可实现无缝迁移。开源社区的热烈反响印证了其技术价值——GitHub平台上的项目关注量已突破79.2K次,超越谷歌Tesseract OCR成为全球最活跃的开源OCR项目。

目前,PaddleOCR-VL-1.6的完整代码与预训练权重已在官方平台开放下载。这款兼具高性能与轻量化的模型,不仅为金融、档案、出版等行业的文档数字化提供了高效解决方案,更通过开源生态的构建,加速推动人工智能技术在复杂多模态场景中的规模化应用。其技术突破标志着我国在文档智能解析领域已达到国际领先水平,为全球开发者贡献了具有自主知识产权的核心技术方案。

 
 
更多>同类内容
全站最新
热门内容