科技·商业·财经

清华系团队做分布式预测世界模型、获数亿元A轮融资,落地终端设备达十万量级

   时间:2026-06-10 11:04 作者:格隆汇

硬氪获悉,具身智能世界模型公司「千诀科技」日前完成数亿元A轮融资,本轮由京铭资本领投,山东新动能、山东财金资本、元禾厚望、芯能创投、南创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等机构共同投资,投资方阵容汇集了国家队、产业方、市场化基金及家族办公室。Maple Pledge枫承资本长期出任私募股权融资顾问。

资金将重点用于自研世界模型的架构搭建、算法迭代与场景落地,同步扩充核心研发与项目交付团队,完善商业化落地配套能力。

千诀科技创立于2023年6月,核心团队孵化自清华大学类脑研究中心,长期聚焦具身智能决策与规划大模型研发落地,突破传统设备任务局限,以帮助机器人实现环境动态自适应与全自主作业。

世界模型的热潮正迅速卷向具身智能领域,成为通用人工智能落地物理世界的核心突破口。卷积神经网络之父Yann LeCun(杨立昆)率先提出世界模型核心理论,其创办的AMI团队持续专注抽象表征空间建模、物理世界规律预测的技术方向研究,为行业奠定了核心理论基础。

从因果推理到空间智能,从物理仿真到生成式预测,基于不同技术范式、不同理论底座的研究在业内正同步展开。这是个尚未收敛、想象力巨大的赛道。各路探索者都在试图回答同一个问题:如何让机器真正理解并预知物理世界的变化。

在主流的生成式路线中,典型做法是通过像素级重构来预测下一帧画面。但千诀科技CTO章天任向硬氪指出,这种方法往往存在一个容易被忽视的问题——特征污染。

“真实物理世界的图像输入信息量极大,包含大量与任务无关的噪声,比如光影、纹理。”章天任解释,模型为了追求像素级的无损重构,不得不把有效特征和无效信息强行绑定在一起,结果可能导致模型内部表征不再“纯净”,“它确实能从现实数据中提取出具有泛化性的特征,但这些特征里混入了干扰项。”

这种污染会直接影响模型对物理世界的理解能力。世界模型的本意是让模型学会符合物理规律的预测,而不是单纯地拟合图像。一旦特征被污染,模型就很难提炼出真正的因果关系和物理不变性,泛化能力自然受限。

“人看一张图时,不会平均分配注意力在每个像素上,而是快速锁定与任务相关的区域。”章天任说,“但生成式模型与其说是理解世界,却更容易发生复刻表象的情况。”

面对生成式路线存在特征提取的这一局限,预测式世界模型提供了另一种思路。 其核心逻辑是,让机器人真正理解物理世界,不是靠还原每一帧像素,而是靠预测物理状态的低维演化轨迹。

千诀科技CEO高海川用一个案例解释了两者的本质区别:人在打球时,不会在脑中想象一帧帧清晰的画面,而是直接挥拍,依靠对球轨迹的低维预测。这种预测不包含像素信息,只包含物理规律的状态演化。“人类在物理世界中玩球类游戏,不可能去想象清晰完整的像素画面,来不及,而且这种信息不稳定。”高海川说。

同样的逻辑适用于具身智能。执行任务时,机器人需要的不是“未来会长什么样”的想象,而是“下一个状态该往哪走”的预判。预测式模型的核心输出不是视频帧,而是低维抽象特征,这些特征可以直接解码为动作轨迹或规划指令,从而绕开像素重构带来的计算负担和特征污染问题。

在预测式路线基础上,千诀科技还进一步提出了分布式预测架构。其架构采用了类人脑的脑区连接方式,大脑不同区域各司其职,连接紧密的区域内部协同,区域之间则相对独立。

对比传统方法把所有信息揉在一起压缩处理,分布式预测架构会先把信息分到不同的区域里,再分别压缩和预测,从而实现样本效率更高,推理速度更快。“同样一个任务,从零开始可能需要1000个‘状态-动作’对;有了好的表征,100个就够了,有效减少了机器人适应新场景所需的示教数据。”章天任说。

通过这种分布式架构,可以帮助模型在抽象表征空间中学习物理状态的演化规律,而非仅仅是像素的时序关联,更好地服务于下游的规划与控制。当机器人面对新环境时,可以更快地理解“什么会导致什么”,对真实场景落地尤为关键。

搭载千诀世界模型的机器人在餐厅打工(图源/企业)

据硬氪了解,千诀科技自研具身大脑已完成轮式、四足、双足人形、无人机、清扫机器人等多品类硬件适配,落地酒店保洁、商用服务、精密室内作业等实景项目,当前接入终端设备规模达十万台。依托海量终端持续产生的真实交互数据,未来将反哺世界模型进一步迭代优化。

以下为硬氪与千诀科技CEO高海川、CTO章天任的访谈节选(略经编辑):

硬氪:开环预测场景下,世界模型的长时推理误差会随步数累积。千诀的预测式架构如何应对这一问题?具身任务的闭环反馈机制能在多大程度上抑制误差放大?

章天任:这个问题分几个层面。第一,累积误差的大小取决于应用场景是否具备闭环反馈。视频生成模型是纯开环的,一次性预测未来很多帧,中间没有任何外部信息校正,所以误差容易累积。但具身不同在于它有闭环反馈,我们不会让机器人一次性预测1000步、把整个任务全部规划完再执行,而是先预测50步,选出动作去执行,执行完后环境会给出新的状态作为反馈,基于反馈修正后续预测。

这种“执行-观测-修正”的循环,是具身任务与视频生成最本质的区别,能有效抑制误差放大。

第二是关于记忆模块。千诀目前已经在一些平台上尝试搭建Memory系统,但还没有与视觉中心直接融合。原因在于,既然已经有了闭环反馈,很多场景下暂时不需要显式的长期记忆。

第三,千诀的模型支持多步预测,模型预测的“一步”不一定对应底层的一个控制指令,而可以对应一个完整的语义动作,比如50个底层step。预测步数越少,累积误差发生的概率和幅度就越小。

总的来说,我们认为世界模型的能力上限挑战在于完全开环的超长时规划,比如机器人还没开始行动,就要一次性规划好未来几百步的所有细节。但这种使用场景在真实的具身任务中很少见,更自然、更现实的做法还是“边做边看”,发现问题随时调整。

硬氪:千诀已实现十万台级别的规模化部署。在实际落地过程中,客户反馈中有哪些超出预期的发现?对你们的产品迭代有什么影响?

高海川:千诀目前已有十万台机器在真实场景中运行,用户把机器人当真实产品使用,给出的反馈也是真实的。因此,我们训练的模型与落地场景之间不存在“real-to-real gap”。

搭载千诀世界模型的机器人自主清洁桌面(图源/企业)

市场反馈中有两个点超出了我们的预期。

一个是响应速度的敏感度。 不同场景对延迟的容忍度差异很大。生成式模型4秒级的响应,在机器人场景中基本不可用。我们的预测式模型虽然推理速度快、可以在0.5秒内返回结果,但部分机器人需要云端传输延迟在1秒左右,客户仍然反馈“卡顿”。当我们把延迟降低0.5秒,用户体验就有了质的飞跃,这种毫秒级的延迟优化,往往比模型能力的提升更能直接转化为用户满意度。

另一方面在于主动性的价值。 大多数时候,客户并不希望机器人只是一个被动执行指令的工具,而是期待它能“眼里有活”——主动感知环境、自主决策,而不是逐条等人类发令。比如在酒店场景中,机器人主动发现地面有污渍并启动清洁,比接到指令再执行,更能让客户感受到“智能化”。这种从“被驱动设备”到“智能体成员”的体验跃迁,正在成为产品差异化的关键维度。

 
 
更多>同类内容
全站最新
热门内容