
图:机器人可以担任准确拿取药品的工作。\新华社
近年来,随着大型语言模型(LLM)和视觉语言模型(VLM)的崛起,具身智能迈入了大模型融合期。利用大规模预训练的多模态模型进行高层语义理解和任务规划,然后由大模型调度低层的动作执行模块。机器人大模型就像一个高智商的“指挥官”。当你说“帮我把桌上的水杯拿到厨房”,大模型会理解你的意图,然后将这个复杂任务分解成一系列子任务:识别水杯、规划路径、抓取水杯、移动到厨房、放置水杯。但它的挑战在于对算力要求极高,且执行速度(推理延迟)和成功率仍有待提高。
让机器人学会“聪明地提问”
具身智能的未来,在于如何克服模仿学习的“无法超越专家”和“遇到新情况就傻眼”的局限,以及如何高效地利用人类的指导。
华裔人工智能女工程师Anrui Gu在加州大学伯克利分校的研究,聚焦于交互式模仿学习和基于预训练模型的规划。从高中获得全美学术十项全能大赛的个人冠军,到伯克利毕业后在xAI从事大模型与社交媒体交互的工作,Anrui Gu的目标是让机器人能够交互式感知环境、从异质示范者学习并利用语义特征进行泛化。
Anrui Gu参与发表的IIFL(隐式交互式集群学习)项目,正是对传统模仿学习的革命性改进。IIFL的核心创新是它让机器人不仅能“看着学”,还能够在学习过程中主动向人类提问。IIFL给机器人装了一个“不确定性传感器”。当机器人觉得“我很不确定该怎么做”时,它才会请人类接手。
传统的训练方法只学“一种正确方式”,但IIFL能表示多种正确的动作。比如在自动驾驶中,有的人喜欢提前打方向盘,有的人喜欢晚一点再转弯,IIFL都能学会并理解这些都是“可行的策略”。如果一辆自动驾驶汽车遇到一个“奇怪情况”(比如摆放方式不同的临时交通锥),它可以远程请求人类司机接管一次,学到的经验会立刻分享给整个机器人集群。
机器人通用能力的挖掘
Anrui Gu还探索了如何利用感知基础模型来实现更好的泛化,甚至零样本泛化。她开发了一个Transformer模型,通过自监督视觉模型来获取物体的“关键点”(比如杯柄的位置、倾斜角度),然后通过学习这些关键点之间的关系来构建策略。这表明模型学习到了关于对应物体抓取点的有用共性,而不是仅仅记住图像像素。
这就像教机器人一个“举一反三”的本领。你教它如何抓取一个红色马克杯的杯柄,它就能自动将这个“抓取杯柄”的技能,泛化到蓝色水瓶、白色茶壶等不同背景或不同形状的物体上。这种方法正是当前具身智能训练的最新趋势:先用大模型提取强大的、与具体任务无关的表征,再把它们用于小样本甚至零样本的新任务,从而解决分布差异和泛化问题。
AI视觉的工业实践与泛化
Anrui Gu将这种“让模型在新环境中也能可靠发挥”的核心理念,带入了工业界,并在电子元件分销商Smith & Associates担任首位AI工程师时,从零开始构建了AI视觉元件检测项目Argus。
在半导体销售行业,确保元器件的真实性至关重要。一个卷带中可能包含多达一万个元件,以往人工检测只能抽样少量零件,耗时耗力且容易出错。Argus系统利用AI对元件表面进行分析,实现了高通量、全覆盖、实时检测,能以每分钟180个零件的速度实时分析,极大提升了质量控制能力和防伪能力。
Anrui Gu没有依赖需要大规模基础设施和算力的方案,而是用一套自研方案,将实验室中对不确定性、泛化和高效学习的理解,巧妙地应用于工业AI视觉领域。这种原创性的方法,比常规AI集成方式节省了数月的开发周期,并已在Smith位于全球的多个运营中心规模化应用。
这项技术能帮助任何需要大规模、高精度质检的产业(如製药业、汽车制造业、食品饮料业、奢侈品鉴定等)提高效率、降低人力成本,并强化产品的可信度与市场竞争力。