科技·商业·财经

从文生视频到世界模型:智象未来如何以认知迭代破局AI新赛道?

   时间:2026-05-17 11:01 作者:互联网

“创业只能赚到认知范围内的钱,认知之外是巨大的陷阱。”梅涛用这句话概括了创业公司的核心挑战。作为视频模型生成企业智象未来的创始人,他坦言公司最大的瓶颈并非技术或资金,而是认知边界。为突破这一局限,他选择通过自我迭代、团队碰撞和行业交流来拓展视野。

近日,全球权威AI评测机构Artificial Analysis更新了文生图模型榜单,智象未来研发的HiDream-O1-Image开源版本位列开源模型首位。这一成果验证了团队在架构创新上的突破——通过UiT架构,他们用8B参数模型实现了超越56B参数模型的效果,显著提升了模型对用户意图的理解能力和生成稳定性。

走进智象未来合肥办公室,一面由AIGC生成的动漫风格员工照片墙格外醒目。这家成立四年的企业已完成多次技术跃迁:从图像视频生成到全模态世界模型,从工具开发到协同创作,从DIT架构到UiT架构。每次转型都伴随着对原有认知的突破。UiT架构的创新之处在于将文本、视觉和控制条件统一到同一模型空间,使理解与生成过程更加高效。

当前视频生成领域正经历关键转折点。年初Seedance2.0的发布推动了技术可控性与规模化应用,快手旗下可灵AI的分拆融资计划则标志着商业化进程加速。在这个竞争格局逐渐固化的赛道中,智象未来选择差异化发展路径。公司核心团队保持高度稳定,创始人梅涛早在2017年就发表了全球首篇文生视频论文,这种技术积淀成为吸引投资的关键因素。

具身智能世界模型领域正涌现新的投资机遇。2026年,AMI Labs完成10.3亿美元种子轮融资,World Labs获得10亿美元投资,全年该赛道吸金超13亿美元。面对这股热潮,梅涛表示智象未来早在2022年就开始布局相关研究,其技术路线与视频生成具有天然协同性。

公司CTO姚霆将世界模型构建分解为三个核心要素:多模态表达能力、物理规律推理能力和世界重建能力。在他看来,视频生成企业具备向世界模型延伸的独特优势——只需将训练数据从文艺创作类转换为具身智能类,训练方法和工程能力可以无缝迁移。这种技术延续性在智象未来与诺亦腾的合作中得到验证,双方合作开发的具身智能原型模型展现出强大的泛化能力。

在商业模式上,智象未来定位为"视频领域的Anthropic",采取模型与应用双轮驱动策略。梅涛将AI企业分为三个层级:基础大厂、模型公司和垂类应用商,而智象未来选择介于二三层之间的定位。公司重点布局三个ToB场景:跨境电商短视频营销、影视制作协同平台和专业级C端创作工具,其中跨境电商业务已实现每日50条短视频的自动化生成。

面向专业创作者的RaaS(结果即服务)模式展现了AI商业化的新可能。梅涛透露,该模式经过一年半探索终于在2024年取得突破,付费用户留存率稳定在50%以上。2025年底,随着多模态token消耗激增和Seedance技术发布,视频生成领域迎来智能涌现时刻,公司估值也随之水涨船高。

智象未来的Agent战略着眼于连接人类创作者与智能体世界。在影视创作场景中,团队开发的"分镜生成"技能已能理解镜头语言和叙事节奏。这种深度行业知识沉淀形成四层能力体系:基础模型、标准化技能、行业定制技能和完整工作流。姚霆认为,未来智能化应用将遵循"Harness×Skills×OS"的范式,其中行业定制技能是构建竞争壁垒的关键。

当被问及创业过程中最大的挑战时,梅涛坦言认知迭代速度是决定成败的关键。他每天最担忧的不是资金或人才问题,而是自身及团队的认知更新能否跟上行业变革。这种危机感驱动着公司不断调整技术路线——从最初对DiT架构的犹豫,到后来坚定选择UiT架构的创新,每个决策都伴随着对技术本质的重新思考。

在团队建设方面,智象未来通过文化认同抵御人才流失风险。姚霆表示,核心成员更看重技术突破带来的成就感而非薪资水平。这种价值观统一使公司能在架构创新上保持领先,例如UiT架构通过统一模型空间实现理解与生成的原生融合,为迈向世界模型奠定了基础。

 
 
更多>同类内容
全站最新
热门内容