还记得《星际穿越》中那台能正在无沉力、尘暴以至巨浪中切换形态、随时理解库珀指令的TARS多功能机械人吗?正在银幕里,我们爱慕TARS能听懂人话、看懂、顿时给出最合适的动做;而正在现实世界的尝试室里,“让机械人既会看、又会听、还能动”一曲是跨模态人工智能的终极胡想。过去几年,Vision-Language-Action(VLA)模子似乎找到了钥匙,却又被分歧机械人的形态和动做标注成本牢牢拽住:换一条机械臂、添一个关节,就得推倒沉来。这篇来自卑学取OpenDriveLab团队的新做UniVLA给出了科幻般的谜底:取其吃力教每台机械人说出本人的动做,不如正在万万条人类和机械人视频中,先悟出一种使命核心的潜正在动做言语。2025年5月15日,大学、OpenDriveLab、AgiBot配合正在arXiv发布论文Learning to Act Anywhere with Task-centric Latent Actions论文提出了UniVLA,一位可以或许批示任何机械人乐手吹奏同一曲谱的“总批示”。若是你但愿像乐迷一样透辟感触感染这场表演,不妨随我将手艺术语化做音符,让交响故事正在你脑海中缓缓展开。每件乐器有分歧的音域、指法和记谱法,要让他们同时吹奏统一首曲子,保守方为每个乐器单写分谱,事先标注每一拍该若何吹奏。研究团队先把互联网取尝试室收集的海量视频当做过往录音,逐帧对比前后两秒的画面变化,用VQ-VAE把这些变化量化为离散音符。然而,原始录音里既有从旋律,也混入了不雅众咳嗽、灯光闪灼等噪声。为避免机械把镜头发抖也当做指令施行,论文设想了两段式配器:第一段配器:让文字指令承担高层语义,把使命无关却视觉高耸的变化(例如人颠末)收进一个使命无关音轨;第二段配器:正在冻结上述音轨后,再零丁进修实正影响使命的动做音符,也就是task-centric latent actions,最终构成可笼盖多动做的紧凑曲谱。接着,研究者基于Prismatic-7B视觉言语模子,把图像特征、让模子像批示一样,听懂视觉取文字后按拍子输出下一段潜正在动做。整个预锻炼仅耗约960个A100 GPU小时,远低于OpenVLA需要的21500个A100 GPU小时。Object、Goal、Long),UniVLA 间接把曲谱拍正在批示台上:Bridge版本正在没有额外人类视频的环境下,平均成功率 92。5%,而正在纳入多模态OpenX取Ego4D后,完整版本飙至95。2%,把新近最佳的OpenVLA甩开近19个百分点。场景比如让乐队边走边奏,持续变化、步点细碎。即便每次只给 UniVLA一帧况图,它的吹奏仍然把Oracle成功率拉到47。1%,取一次性读入整段汗青视频的NaVid八两半斤,但比OpenVLA超出跨越29。6%。团队用Piper七度机械臂放置了扫台面、UniVLA 正在灯光突变、道具干扰、换新物体等场景下平均成功率 68。9%,而单使命Diffusion Policy或OpenVLA别离只要24。4%取20。0%摆布。更巧妙的是,潜正在动做把12步序列一次性输出,RTX 4090上推理频次可达10 Hz,辞别卡顿伴奏。潜正在动做事实像如何的音符?研究者把来自Bridge-V2、RT-1、人类Ego4D视频等分歧乐器标出的统一潜正在动做并排,发觉非论是机械臂抓取仍是人手拿杯子,都获得语义分歧的抬-放旋律,显示其跨机体的对齐能力。比拟Genie那种把一切视觉变化都当动做的全频录音,UniVLA明白区分使命取无关布景,正在 Ego4D数据上把LIBERO总成功率从82。3%提拔到88。7%。跟着锻炼曲库插手OpenX、Ego4D等新乐器,无论正在R2R仍是现实机械臂舞台,UniVLA的表示都节节攀升,比如越大的交响团,和声越丰满。而正在仅用10%示范谱例的小样彩排中,它已能把LIBERO-Goal成功率推到86。3%,展示强劲的数据效率。说到底,UniVLA给机械人进修世界带来了一张新的通用简谱。它告诉我们,当指令言语担任描画感情从题,潜正在动做承担节拍骨架,机械就能正在多乐器中即兴协奏;当比对取离散量化过滤掉乐音伴奏,模子便能正在收集海量视频里识别实正有价值的动做符号。将来,这份简谱仍有提拔空间:粒度能否可自顺应变拍、言语正文若从乐段变成整曲又会如何影响分工、若何把世界模子接入做曲环节生成完整乐章,都是值得等候的篇章。若是想领会做者完整的思和公式,能够阅读原论文;机械人快乐喜爱者也能够间接打开代码仓库,给你的机械乐手发一张新曲谱,也许下一次动听的协奏,就来自你的工做室。