科技·商业·财经

商汤科技发布U1-8B-MoT-Interleaved模型:图文创作更连贯,多页PPT一键生成

   时间:2026-06-12 23:15 作者:格隆汇

商汤科技今日正式推出其日日新SenseNova U1系列全新模型——U1-8B-MoT-Interleaved图文交错增强版,并宣布开源供全球开发者使用。该模型针对图文混合创作场景进行了深度优化,旨在解决传统多模态模型在连续内容生成中存在的角色形象不一致、画面风格断裂以及图文语义错配等核心问题。

在叙事连贯性方面,新模型通过强化长周期创作能力,实现了故事线从首页到末页的严格遵循。测试数据显示,人物形象在跨页生成中的相似度提升超过40%,画面风格统一性指标达到行业领先水平。这一突破使得绘本创作、长篇故事书生成等复杂场景成为可能。

针对图文对应关系这一行业痛点,研发团队构建了专门的语义对齐训练框架。模型能够精准解析文本中的空间关系、动作描述等复杂信息,生成的图像在物体位置、动态表现等方面与文字描述的匹配度提升60%以上。例如在生成"小猫在沙发上跳跃"这类场景时,模型可准确呈现物体间的相对位置和动作轨迹。

视觉质量优化方面,模型对人物结构、文字渲染等高频问题区域实施定向改进。通过引入三维解剖知识约束和排版美学评估模块,生成内容中的视觉瑕疵减少55%,文字可读性显著提升。在多页PPT生成场景中,模型可自动完成要点提炼、版式设计和图文混排,用户仅需输入核心内容即可获得专业级演示文档。

该模型现已在Hugging Face平台开放下载,开发者可通过以下链接获取完整代码和预训练权重:https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved。商汤科技表示,此次开源将推动图文创作领域的技术普惠,为教育、出版、广告等行业提供更高效的智能化解决方案。

 
 
更多>同类内容
全站最新
热门内容