在具身智能领域,一个备受关注的说法是“不做硬件的具身智能公司,难成大器”。这背后蕴含的逻辑在于,软件若想达到顶尖水平,必须深入理解硬件特性;而硬件要充分发挥性能极限,也离不开软件在架构与调度层面的配合。这种深度融合,需要从产品设计初期就融入系统之中。然而现实情况是,许多厂商常常抱怨,做算法的人员对硬件一知半解,而搞硬件开发的又不懂算法,双方几乎处于各自为战的状态。
人形机器人发展进程中,一个关键问题引发了业内广泛争议:究竟是硬件发展滞后,还是软件能力不足?在不久前举办的ALL-IN SUMMIT上,马斯克被问及Optimus在硬件与软件方面哪个更难取得突破。他坦言,目前团队仍在为硬件的最终设计而苦苦挣扎。当主持人进一步追问,若硬件难题得以解决,基于大语言模型(LLM)的发展,是否就能实现自然的人机交互,让机器人听懂指令并执行任务时,马斯克充满信心地给予肯定答复。
与马斯克的硬件焦虑形成鲜明对比的是,宇树科技的王兴兴在多个场合表达了不同观点。他认为,目前硬件已经足够使用,反而在AI领域,让AI发挥作用在行业内仍是一片“荒漠”。王兴兴指出,数据和模型是当前机器人发展的难点,AI模型本身的能力还有待提升,难以有效控制机器人的灵巧手等部件。
这两种看似对立的观点,实际上反映了同一个本质困境。问题的关键并非单纯在于硬件或软件某一方面的落后,而在于二者之间缺乏有效的协同与融合。这一问题的解决,不应仅由整机厂商独自承担,上游企业也应积极参与其中。
具身研习社与亚德诺半导体(ADI)进行了深入沟通。作为上游核心硬件和解决方案提供商,ADI跳出了一味争论软硬件孰优孰劣的二元对立视角,从“协同”的角度进行分析。ADI院士兼技术副总裁陈宝兴表示,问题的核心在于AI与硬件的深度集成。以机器人抓取物品为例,需要综合考虑物体的性质、施加的力度以及防滑等具体要求,这些都依赖于硬件与软件、AI与控制的深度集成,目前在这方面还有大量工作亟待完成。
这也解释了为何我们很难看到灵敏、聪慧且动作精准的机器人。因为这一问题已经超出了单纯依靠软件或硬件就能解决的范围,如何实现软硬件更好的系统性协同,或许将成为未来行业的主要攻关方向。
王兴兴曾提出“目前的硬件某种意义上是完全够用的”,这一观点在业内引发了巨大争议。但他紧接着也指出,硬件量产是一个普遍存在的难题。马斯克也直言,人形机器人缺乏完整的供应链,必须从零开始进行设计,这也是其量产计划推迟的重要原因。
硬件发展面临的第一个明显难题是“缺乏标准”。尽管市面上已有大量来自工业、汽车等领域的零部件可供复用,但专门为机器人设计的零部件却十分稀缺。简单来说,现有的硬件虽然能用,但并不完全适用,这就导致了“硬件制约软件”的现状,成为模型落地的一大阻碍。
造成这一现象的根本原因主要有两点。其一,人形机器人尚处于发展初期,规模较大的供应商不愿将精力投入到利润有限、对财报贡献不大的产品线中。这就导致各种零部件存在适配问题,特定零部件的量产能力和良品率也难以保证。虽然技术在理论上已经没有太多瓶颈,但工程化问题却十分突出,成为人形机器人推广的一道障碍。其二,不同人形机器人厂商的技术路线差异巨大,无论是本体硬件还是大脑模型,技术都尚未进入收敛期。不同的AI算法与不统一的硬件平台之间难以匹配,从而产生了另一道障碍,即硬件“缺乏AI能力”的问题。换句话说,硬件与软件之间过于脱节,就像提线木偶断了线一样。
因此,当前真正的难点在于缺乏“AI原生设计”。陈宝兴将“AI和物理智能”的关系类比为“大脑跟身体”的关系,AI如同机器人的“大脑”,负责学习、推理和决策;物理智能则如同“身体”,负责感知、运动以及与环境互动。只有两者深度融合,机器人才能像人一样灵活、聪明和可靠。
物理智能的核心在于高性能传感器。ADI的机器人团队正致力于将传感器和执行器模型集成到NVIDIA的Isaac Sim平台中,通过模拟真实世界的物理反馈,训练可直接部署的控制策略,实现从仿真到现实的突破。
ADI认为,实现物理智能有两个关键要点,这也是ADI目前的主要发力方向。第一,硬件要能够与中央处理单元(即“大脑”)配合;第二,要注重与类似脊髓反应相关的部分(即“小脑”)紧密结合,例如实现神经元层面的功能,包括感知神经元、运动神经元以及灵巧性方面的功能。
以电机和驱动器为例,它们能否快速、精准地执行AI下达的“非标”指令?比如,如何让一个关节在需要时瞬间输出爆发力(如起跳),同时又能实现极精细的力度控制(如捏住鸡蛋)?这就要求硬件本身具备低延时、高带宽、高精度的特性,并且能够进行包括触觉在内的多维传感器数据传输,实现边云间的通信与计算,这都离不开AI算法的深度适配。由此可见,硬件的问题不仅仅是“缺乏行业标准”或具体的“力量”“成本”“尺寸”“可靠性”等指标问题,而是如何被AI高效、精准、低延迟地驱动和控制的问题,本质上是一个软硬件协同设计的难题。
长期以来,软硬件两手抓的企业在资本市场备受青睐。但这里存在一个误区,“软硬件全栈”不应仅仅停留在公关宣传层面,而应真正实现“软硬件协同”“软硬件融合”。就像“AI原生硬件”一样,机器人作为大型AI硬件,在规划和研发阶段就应围绕AI进行设计与搭建。
在模型厂商中,也有一些企业意识到了这种融合的重要性。例如,OpenAI收购io,计划打造AI原生硬件;meta推出AI眼镜;字节跳动涉足AI耳机领域;钉钉推出AI录音硬件等。在具身智能赛道,部分企业也开始意识到软硬件协同的重要性,这些企业可分为两类。一类是在硬件设计阶段就进行通盘考虑,有清晰的接口和分工,这是目前主流的努力方向。这些企业会预留开发接口,为特殊场景设计硬件构型、尺寸,并加装定制参数的零部件和功能模块。另一类则是更高阶的“融合”状态,打破了传统的软硬件界限,实现硬件为软件算法而生,软件为硬件特性而写。
例如,为特定的强化学习算法设计专用的计算芯片和传感器;在AI模型训练中引入硬件物理响应(如弹性、摩擦系数)的建模;硬件的设计也会为了适应AI的决策频率而优化,比如在模型推理间隙,由端侧芯片自主完成触觉反射调节。目前,仅有少数领先企业开始探索这种“融合”模式,大多数企业仍未进入软硬件“协同”阶段。
软硬件融合将成为具身企业的核心竞争力与新机遇,也将推动具身赛道进一步落地。但这并非仅是本体厂商需要面对的课题,上游企业同样需要共同努力。以ADI为例,作为上游厂商,在让机器具备思考、触感和行动能力的过程中,主要针对四个关键环节发力:感知(sense)、连接(connect)、解译(interpret)、控制(control),这四个环节恰好串联起了机器人软硬件的协同。
从感知层面来看,机器人需要具备视觉、触觉等能力,未来通过“多模态感知融合”来判断物体形态、提升灵巧度;从连接层面来看,机器人需要高速稳定的“神经网络”连接;解译环节则是对传感器原始数据和各部件动态信息进行分析和理解;控制系统作为机器人的“大脑皮层”,负责运动规划与执行,最新的AI驱动运动控制算法可实现多关节协调与复杂动作。由此可见,硬件与软件之间的“结合部”存在明显短板,同时也蕴含着众多机会。
人形机器人的发展,必然是一场软硬件协同进化的旅程。并非硬件足够而软件滞后,或者软件可行而硬件拖后腿,而是它们必须像生物界的脑与身体一样,相互塑造、耦合反馈、密不可分。未来的突破,将取决于我们能否运用技术创新与工程智慧加速这一“共同进化”的过程。