在具身智能领域,各大机构和企业正竞相投入资源,加速世界模型与VLA(视觉-语言-动作模型)的研发进程。然而,AI行业资深从业者、一目科技创始人兼CEO李智强指出,当前这些模型仍存在显著短板。若要实现机器人像人类一样理解并操作物理世界,触觉感知的缺失是关键阻碍。
基于这一判断,一目科技启动了从底层传感器到仿真算法的全链路技术布局,致力于打造“触觉增强的世界模型”。李智强分析称,若将AI发展类比人类五感,听觉技术已在2015年趋于成熟,视觉能力在过去十年间也取得长足进步,但嗅觉、味觉和触觉领域仍存在空白。尤其在具身智能需要解决的行动力、智力和精细化操作三大核心问题中,精细化操作高度依赖闭环感知能力。他举例说明,仅凭视觉系统,机器人在夹取薯片等脆性物体时极易失败,而触觉感知的引入可有效解决此类问题。
李智强认为,世界模型要真正理解物理世界,必须补足触觉维度。人类对物质世界的认知源于持续触摸试探,并在大脑中建立与物理世界的映射关系。若机器人能通过触碰探索形成类人感知,世界模型将达成终极目标。这一理念驱动着一目科技的创业实践——通过感知技术驱动“物理AI”发展。李智强在卡内基梅隆大学攻读博士期间,研究方向为光谱仪芯片化及AI算法,该技术可类比于人类的嗅觉和味觉感知,这为其后续探索硬科技与物理AI结合奠定了基础。
2015年,一目科技在硅谷成立,次年选择回国创业。李智强解释称,“物理AI”方向对硬件依赖极高,而中国在硬件设计、制造工艺等领域具有显著优势。例如,国内完成一块电路板设计仅需七八天,而在美国可能需要三至四个月。经过十多年学术研究与企业实践,技术验证表明:具备触觉感知的机器人可完成夹取薯片、穿针引线、抓取布料等精细化操作,动作流畅自然。这证明触觉感知是具身智能实现精细化操作的起点,也是世界模型走向完整的关键路径。
要让世界模型拥有触觉感知能力,需突破触觉数据采集与感知技术瓶颈。李智强指出,核心难题在于传感器性能限制。一目科技创业初期聚焦分子光谱仪芯片化,历时四年完成芯片研发、设计与流片,并于2020年推出首个产品线,应用于实验室和水质检测场景。该产品线现已进入稳定盈利阶段,为公司提供了持续发展的资金支持。
凭借传感器技术积累,一目科技两年前启动视触觉传感器研发项目。2025年10月,在全球机器人顶会IROS上,该公司展示了自主研发的全球最薄可商用仿生视触觉传感器。该产品通过内置摄像头捕捉弹性材料接触物体时的细微形变,生成高清“触觉照片”序列,再经AI算法解算出触觉信号。与传统压力传感器仅能感知单一压力不同,这款产品可同时识别物体软硬、表面纹理及滑动趋势。李智强介绍,该传感器实现四大行业突破:厚度仅为美国竞品的一半,解决了传统视触觉传感器因体积过大难以与灵巧手集成的问题;克服“温漂”现象;达到IP65级工业防尘标准;接触面无盲区,而竞品存在10%至20%的盲区。其响应时间仅8毫秒,可实现5毫牛级多向力分辨,多项性能指标达到全球领先水平。
这款触觉传感器分辨率极高,相当于在手指尖部署数百万个触点。高保真信号与精准数据使其能够解算出高精度触觉信息,为机器人灵巧手操作提供有力支持。产品发布后迅速获得市场认可,团队预计未来一年出货量将跻身行业前三。
尽管机器人硬件对触觉传感需求迫切,但现有世界模型和VLA模型尚未构建触觉感知算法能力。为此,一目科技提出“触觉增强的世界模型”理念,主张在现有模型基础上进行补充增强。李智强表示,团队未必独立开发整套世界模型,而是希望借助触觉技术强化现有模型性能。例如,基于李飞飞团队发布的世界模型、阿里发布的VLM开源模型等,一目科技将开展针对性研发。
这一过程面临两大挑战:数据采集难度大与数据量不足。李智强坦言,人工采集的真实触觉数据仅约10万条,虽对数据处理而言规模庞大,但对大模型训练仍远远不够。开源社区虽存在数十万条触觉数据,但同样杯水车薪。为突破数据瓶颈,一目科技采用“真实数据锚定仿真系统”的闭环策略:在真实数据基础上,结合物理仿真与生成式AI扩展数据规模。团队利用有限元模型,将物体形态、硬度、摩擦力等参数通过物理方程仿真生成,同时通过生成式AI增加光照、纹理、摆放位置等场景变量,实现仿真数据的扩大化与无序化。
物理仿真因基于物理方程而误差较小,生成式AI则存在一定幻觉且对物理规律理解有限。团队持续优化物理模型,并随着生成式AI技术进步引入新方法,不断提升模拟数据质量。通过这种方式,一目科技在虚拟空间中构建了可“触摸”的仿真世界,并采用视触觉方式采集触觉信息。该方法不仅感知压力,还能通过内部摄像头捕捉形变与光线变化,完整还原触感生成过程。构建的视触觉传感器模型可输出包含纹理、形态、力方向等信息的数字信号,接入VLA与世界模型。
通过仿真增强策略,一目科技希望将触觉数据量扩展百倍以上,为规模化训练奠定基础。完成数据扩展后,需将触觉与视觉、语言等模态对齐,真正融入世界模型。现有世界模型多围绕视觉与语言分配“token”,一目科技则创新引入“触觉token”,通过训练增强模型多模态理解能力,打通感知链路。李智强介绍,后半部分训练过程与大模型常规方法类似,包括预训练、精调与强化学习等环节,最终需通过测试验证效果。
真正的挑战在于触觉数据与其他模态的关系处理与对齐。当触觉、视觉等信息同时出现时,需判断可信度优先级并做出综合决策。信息关联度与域对齐问题也需解决。一目科技的创新重点围绕触觉信息处理、对齐及其对决策的影响展开。这一阶段类似于20年前视觉模型的起步期——随着传感器技术迭代升级,触觉感知能力将逐步完善。
在AI技术快速演进的背景下,李智强认为,企业需构建技术壁垒并精准定位市场。一目科技选择从感知传感器硬件到算法的全链路技术布局,力求在细分领域达到全球领先水平。市场选择方面,团队聚焦巨头难以覆盖或客户依赖度较低的细分市场,通过技术不可替代性确立竞争优势。目前,团队投入最多的是有限元仿真与光学仿真领域,业务聚焦于高度专业化的细分赛道。
放眼全球,真正从事“触觉增强世界模型”研发的团队仍属少数。早期meta虽开展过相关研究,但主要集中于纯触觉领域,尚未实现与世界模型的深度打通。李智强直言,该方向仍有大量工作待完成。一目科技规划了分阶段实施路径:第一阶段基于开源模型进行改造,预计耗时9至12个月跑通整个链路;效果达标后,第二阶段将开放部分模型与数据集回馈开源社区;长远来看,计划与模型巨头企业合作,将触觉增强技术提前融入模型训练,这比后期调整效果更佳。目前,公司正处于第一阶段。
李智强透露,未来五至十年将围绕触觉增强技术开展产品规划与投资。他认为,中国在“硬件+软件”融合模式下具备显著优势,这为行业与企业发展创造了广阔空间。











