科技·商业·财经

复旦与阿里通义千问团队突破AI瓶颈:让AI“看图”“画图”无缝衔接

   时间:2026-06-20 02:03 作者:鞭牛士

复旦大学人工智能与具身智能研究院与阿里巴巴通义千问团队联合提出了一项名为UniAR的创新框架,旨在解决多模态AI系统中“看图”与“画图”能力割裂的难题。该研究以预印本论文形式发布于学术平台,编号为arXiv:2606.18249,为构建真正统一的多模态智能提供了新思路。

传统AI系统中,“看图”与“画图”通常由两套独立模块处理:前者依赖高层语义理解,后者注重低层细节生成。这种分工导致AI生成图片后,需通过另一套系统重新解析自身作品,效率低下且易出错。研究团队比喻这一过程如同“写完信后立即遗忘,需重新阅读才能回忆内容”,从根本上阻碍了统一智能的发展。

UniAR的核心突破在于设计了一套“统一视觉词典”,通过多层次特征融合与二进制量化技术,使同一套编码体系既能捕捉图片的宏观语义(如物体类别、空间关系),又能保留微观细节(如纹理、光影)。其视觉编码器SigLIP2在读取图片时,同步提取浅层细节特征与深层语义特征,并通过64位二进制代码量化,理论上可表示1800亿亿种视觉状态,远超传统方法。

基于统一词典,研究团队构建了自回归模型,将图片生成转化为“视觉接龙”游戏。AI通过预测下一个视觉代码逐步构建图片,并创新采用“并行位元预测”机制:每次同时预测2×2区域内的多个代码,结合32倍空间压缩,使512×512图片生成仅需256步,1024×1024高清图片生成效率较同类模型提升近8倍。训练中引入的“随机位翻转”技巧进一步增强了模型鲁棒性。

视觉解码器负责将二进制代码还原为像素图片。采用扩散变换器架构的解码器以噪声图片为起点,逐步去噪并受视觉代码引导,最终生成清晰图像。该模块仅依赖视觉代码输入,避免文字干预,确保语义一致性。实验显示,其生成的图片在指令遵循、文字渲染等任务中表现优异,例如在Geneval测试中获0.86分,超越GPT-4o等模型。

强化学习阶段,研究团队设计了多维度评分体系:图片质量由HPSv2和UnifiedReward评估,文字渲染通过PaddleOCR计算编辑距离,指令遵循依赖目标检测工具验证物体属性与关系。经512×512与960×960分辨率分阶段训练后,模型文字渲染分数从71.1提升至87.3,显著优于Flux.1-dev等基准。

测试表明,UniAR在图片编辑任务中获3.73分,超越Flux.1 Kontext Dev等专用模型;多模态理解方面,OCRBench得分833,DocVQA得分91.4,均领先LLaVA-OV。值得注意的是,由于未使用纯文字数据预训练,模型在MMMU推理测试中得分44.3,低于Qwen3-VL等顶级理解模型,但视觉编码器在TextVQA等文字相关任务中表现最优。

研究团队发现,UniAR因采用统一词典,具备“自我理解”能力:在生成图片后,可直接基于同一上下文回答关于图片细节的问题,无需重新编码。例如,当被问及“花瓶与桌子间有何物”时,模型准确回答“圆形编织餐垫”,而依赖双重词典的模型则无法实现此类交互。

系统效率方面,UniAR训练吞吐量较连续特征方案提升30%,总训练成本约3.3万GPU小时,使用更小参数规模(视觉编码器4亿、解码器25亿)达到或超越X-Omni等模型性能。研究团队承认当前版本存在局限性,未来计划扩大数据规模、优化奖励模型,并将强化学习扩展至图片编辑与理解任务。

 
 
更多>同类内容
全站最新
热门内容