滚动资讯

当前位置：网界 > 行业动态 > 正文内容

复旦与阿里通义千问团队突破AI瓶颈：让AI“看图”“画图”无缝衔接

时间：2026-06-20 02:03 作者：鞭牛士

复旦大学人工智能与具身智能研究院与阿里巴巴通义千问团队联合提出了一项名为UniAR的创新框架，旨在解决多模态AI系统中“看图”与“画图”能力割裂的难题。该研究以预印本论文形式发布于学术平台，编号为arXiv:2606.18249，为构建真正统一的多模态智能提供了新思路。

传统AI系统中，“看图”与“画图”通常由两套独立模块处理：前者依赖高层语义理解，后者注重低层细节生成。这种分工导致AI生成图片后，需通过另一套系统重新解析自身作品，效率低下且易出错。研究团队比喻这一过程如同“写完信后立即遗忘，需重新阅读才能回忆内容”，从根本上阻碍了统一智能的发展。

UniAR的核心突破在于设计了一套“统一视觉词典”，通过多层次特征融合与二进制量化技术，使同一套编码体系既能捕捉图片的宏观语义（如物体类别、空间关系），又能保留微观细节（如纹理、光影）。其视觉编码器SigLIP2在读取图片时，同步提取浅层细节特征与深层语义特征，并通过64位二进制代码量化，理论上可表示1800亿亿种视觉状态，远超传统方法。

基于统一词典，研究团队构建了自回归模型，将图片生成转化为“视觉接龙”游戏。AI通过预测下一个视觉代码逐步构建图片，并创新采用“并行位元预测”机制：每次同时预测2×2区域内的多个代码，结合32倍空间压缩，使512×512图片生成仅需256步，1024×1024高清图片生成效率较同类模型提升近8倍。训练中引入的“随机位翻转”技巧进一步增强了模型鲁棒性。

视觉解码器负责将二进制代码还原为像素图片。采用扩散变换器架构的解码器以噪声图片为起点，逐步去噪并受视觉代码引导，最终生成清晰图像。该模块仅依赖视觉代码输入，避免文字干预，确保语义一致性。实验显示，其生成的图片在指令遵循、文字渲染等任务中表现优异，例如在Geneval测试中获0.86分，超越GPT-4o等模型。

强化学习阶段，研究团队设计了多维度评分体系：图片质量由HPSv2和UnifiedReward评估，文字渲染通过PaddleOCR计算编辑距离，指令遵循依赖目标检测工具验证物体属性与关系。经512×512与960×960分辨率分阶段训练后，模型文字渲染分数从71.1提升至87.3，显著优于Flux.1-dev等基准。

测试表明，UniAR在图片编辑任务中获3.73分，超越Flux.1 Kontext Dev等专用模型；多模态理解方面，OCRBench得分833，DocVQA得分91.4，均领先LLaVA-OV。值得注意的是，由于未使用纯文字数据预训练，模型在MMMU推理测试中得分44.3，低于Qwen3-VL等顶级理解模型，但视觉编码器在TextVQA等文字相关任务中表现最优。

研究团队发现，UniAR因采用统一词典，具备“自我理解”能力：在生成图片后，可直接基于同一上下文回答关于图片细节的问题，无需重新编码。例如，当被问及“花瓶与桌子间有何物”时，模型准确回答“圆形编织餐垫”，而依赖双重词典的模型则无法实现此类交互。

系统效率方面，UniAR训练吞吐量较连续特征方案提升30%，总训练成本约3.3万GPU小时，使用更小参数规模（视觉编码器4亿、解码器25亿）达到或超越X-Omni等模型性能。研究团队承认当前版本存在局限性，未来计划扩大数据规模、优化奖励模型，并将强化学习扩展至图片编辑与理解任务。

更多>同类内容

清华等高校联合研究：AI扩散语言模型“自蒸馏”新法，效率飙升十倍

06-20

港理工突破AI图片编辑瓶颈：文字与手势协同，开启精准创作新体验

06-20

清华大学研究：AI大模型“取巧”真相，全注意力层才是长文本关键

06-20

Layer 6 AI新突破：破解大模型训练“崩溃”困局，让学习更稳健

06-20

7B小模型“循环思考”显神通：代码任务中力压数百亿参数大模型

06-20

香港中文大学等团队突破创新：机器人借人类视频“解锁”高效学习新路径

06-20

南洋理工频谱强制技术：为AI图像生成精准“导航” 聚焦有效信号

06-20

中央大学与Adobe Research创新AI图像修复：高清参考图助力告别生成失真

06-20

英伟达新突破：ZPPO方法助力AI小模型高效学习，效果显著提升

06-20

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

06-20

基于宇树G1改装的人形机器人 Pemba 登顶火山未来剑指珠峰开展多项任务

06-20

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程

06-20

摩尔线程2026移动云大会展实力，全栈算力助力Token生态与智算发展

06-20

摩尔线程MTT S5000实现MiniMax M2.7 Day-0适配国产GPU加速AI创新落地

06-20

呼兰支招AI时代：摆脱焦虑，投身具体事务成就超级个体之路

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号