點(diǎn)擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進(jìn)行分享
本文的共同第一作者為香港大學(xué) InfoBodied AI 實(shí)驗(yàn)室的博士生孫力和吳杰楓,合作者為劉瑞哲,陳楓。通訊作者為香港大學(xué)數(shù)據(jù)科學(xué)研究院及電機(jī)電子工程系助理教授楊言超。InfoBodied AI 實(shí)驗(yàn)室近年來在 CVPR,ICML,Neurips,ICLR 等頂會上有多項(xiàng)代表性成果發(fā)表,與國內(nèi)外知名高校,科研機(jī)構(gòu)廣泛開展合作。
https://mp.weixin.qq.com/s/0wE3K6bMR--LiubKs5ucIA
標(biāo)題:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang機(jī)構(gòu):The University of Hong Kong原文鏈接: https://arxiv.org/abs/2508.18802
出發(fā)點(diǎn)與研究背景
在具身智能中,策略學(xué)習(xí)通常需要依賴場景表征(scene representation)。然而,大多數(shù)現(xiàn)有多任務(wù)操作方法中的表征提取過程都是任務(wù)無關(guān)的(task-agnostic):
無論具身智能體要 “關(guān)抽屜” 還是 “堆積木”,系統(tǒng)提取的特征的方式始終相同(利用同樣的神經(jīng)網(wǎng)絡(luò)參數(shù))。
想象一下,一個(gè)機(jī)器人在廚房里,既要能精準(zhǔn)抓取易碎的雞蛋,又要能搬運(yùn)重型鍋具。傳統(tǒng)方法讓機(jī)器人用同一套"眼光" 觀察不同的任務(wù)場景,這會使得場景表征中包含大量與任務(wù)無關(guān)的信息,給策略網(wǎng)絡(luò)的學(xué)習(xí)帶來極大的負(fù)擔(dān)。這正是當(dāng)前具身智能面臨的核心挑戰(zhàn)之一。
這樣的表征提取方式與人類的視覺感知差異很大 —— 認(rèn)知科學(xué)的研究表明,人類會根據(jù)任務(wù)目標(biāo)和執(zhí)行階段動態(tài)調(diào)整注意力,把有限的感知資源集中在最相關(guān)的物體或區(qū)域上。例如:找水杯時(shí)先關(guān)注桌面大范圍區(qū)域;拿杯柄時(shí)又轉(zhuǎn)向局部幾何細(xì)節(jié)。
那么,具身智能體是否也可以學(xué)會 “具備任務(wù)感知能力的場景表征” 呢?
創(chuàng)新點(diǎn)與貢獻(xiàn)
1. 提出任務(wù)感知場景表示框架
我們提出了 HyperTASR,這是一個(gè)用于提取任務(wù)感知場景表征的全新框架,它使具身智能體能夠通過在整個(gè)執(zhí)行過程中關(guān)注與任務(wù)最相關(guān)的環(huán)境特征來模擬類似人類的自適應(yīng)感知。
2. 創(chuàng)新的超網(wǎng)絡(luò)表示變換機(jī)制
我們引入了一種基于超網(wǎng)絡(luò)的表示轉(zhuǎn)換,它可以根據(jù)任務(wù)規(guī)范和進(jìn)展?fàn)顟B(tài)動態(tài)生成適應(yīng)參數(shù),同時(shí)保持與現(xiàn)有策略學(xué)習(xí)框架的架構(gòu)兼容性。
3. 兼容多種策略學(xué)習(xí)架構(gòu)
無需大幅修改現(xiàn)有框架,即可嵌入到 從零訓(xùn)練的 GNFactor 和 基于預(yù)訓(xùn)練的 3D Diffuser Actor,顯著提升性能。
4. 仿真與真機(jī)環(huán)境驗(yàn)證
在 RLBench 和真機(jī)實(shí)驗(yàn)中均取得了顯著提升,驗(yàn)證了 HyperTASR 在不同表征下的有效性(2D/3D 表征,從零訓(xùn)練 / 預(yù)訓(xùn)練表征),并建立了單視角 manipulation 的新 SOTA。
HyperTASR 概述
在這項(xiàng)工作中,我們提出了 HyperTASR —— 一個(gè)基于超網(wǎng)絡(luò)的任務(wù)感知場景表征框架。它的核心思想是:具身智能體在執(zhí)行不同任務(wù)、處于不同階段時(shí),應(yīng)該動態(tài)調(diào)整感知重點(diǎn),而不是一直用一套固定的特征去看世界。
動態(tài)調(diào)節(jié):根據(jù)任務(wù)目標(biāo)和執(zhí)行階段,實(shí)時(shí)生成表示變換參數(shù),讓特征隨任務(wù)進(jìn)展而不斷適配。架構(gòu)兼容:作為一個(gè)獨(dú)立的模塊,可以無縫嵌入現(xiàn)有的策略學(xué)習(xí)框架(如 GNFactor、3D Diffuser Actor)。計(jì)算分離:通過超網(wǎng)絡(luò)建立 “任務(wù)上下文梯度流(task-contextual gradient)” 與 “狀態(tài)相關(guān)梯度流(state- dependent gradient)” 的分離,大幅提升學(xué)習(xí)效率與表征質(zhì)量。
換句話說,HyperTASR 讓具身智能體在執(zhí)行任務(wù)時(shí),像人類一樣 “看得更專注、更聰明”。
任務(wù)感知的場景表示 (Task-Aware Scene Representation)
傳統(tǒng)的具身智能體操作任務(wù)(Manipulation)學(xué)習(xí)框架通常是這樣的:
這種做法的局限在于:表征提取器始終是任務(wù)無關(guān)的。不管是 “關(guān)抽屜” 還是 “堆積木”,它提取的特征都一樣。結(jié)果就是:大量無關(guān)信息被帶入策略學(xué)習(xí),既降低了策略學(xué)習(xí)的效率,也增加了不同任務(wù)上泛化的難度。
受到人類視覺的啟發(fā),我們提出在表征階段就引入任務(wù)信息:
這樣,場景表示能夠隨任務(wù)目標(biāo)與執(zhí)行階段動態(tài)變化,帶來三個(gè)好處:
更專注:只保留與當(dāng)前任務(wù)相關(guān)的特征更高效:過濾掉無關(guān)信息更自然:和人類逐步完成任務(wù)時(shí)的視覺注意模式一致
超網(wǎng)絡(luò)驅(qū)動的任務(wù)條件化表示 (Hypernetwork-Driven Task-Conditional Representation)
HyperTASR 的詳細(xì)結(jié)構(gòu)如 Figure 2 所示。為了實(shí)現(xiàn)任務(wù)感知,我們在表征提取器后加入了一個(gè) 輕量級的自編碼器:
其中:
引入自編碼器的一大優(yōu)勢在于,自編碼器適用于不同的場景表征形式(2D/3D 表征都有對應(yīng)的自編碼器),另外自編碼器可以維持原來場景表征的形式,無須調(diào)整后續(xù)策略網(wǎng)絡(luò)的結(jié)構(gòu)。
這樣,場景表征不僅會隨任務(wù)不同而變化,也會在任務(wù)的執(zhí)行過程中不斷動態(tài)遷移。
這種設(shè)計(jì)的優(yōu)勢:
1. 梯度分離:任務(wù)上下文與狀態(tài)相關(guān)信息在梯度傳播中分離,增強(qiáng)可解釋性和學(xué)習(xí)效率
2. 動態(tài)變換:不是簡單加權(quán),而是真正改變表征函數(shù),使得表征更加靈活
實(shí)驗(yàn)驗(yàn)證
HyperTASR 的另一個(gè)優(yōu)勢是模塊化、易集成。這種 “即插即用” 的設(shè)計(jì)讓 HyperTASR 可以同時(shí)增強(qiáng) 從零訓(xùn)練和預(yù)訓(xùn)練 backbone 兩類方法。我們分別把它嵌入到兩類主流框架中進(jìn)行驗(yàn)證:
1.GNFactor(從零訓(xùn)練):使用 3D volume 表征
2.3D Diffuser Actor(基于預(yù)訓(xùn)練):使用 2D backbone 提取特征再投影到 3D 點(diǎn)云
我們只使用了行為克隆損失(Behavior Cloning Loss)作為我們網(wǎng)絡(luò)的訓(xùn)練損失。
仿真實(shí)驗(yàn)
在仿真環(huán)境 RLBench 中的 10 個(gè)任務(wù)上進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如 Table 1 所示:
集成到 GNFactor 后,在無需特征蒸餾模塊的情況下(訓(xùn)練無需額外的監(jiān)督信息),成功率超過基線方法 27%;集成到 3D Diffuser Actor 后,首次讓單視角操作成功率突破 80%,刷新紀(jì)錄。
在此基礎(chǔ)上,我們進(jìn)一步通過網(wǎng)絡(luò)的梯度進(jìn)行了注意力可視化:
從 Figure 3 中我們可以觀察到:
傳統(tǒng)方法的注意力往往分散在背景和無關(guān)物體;HyperTASR 的注意力始終集中在任務(wù)相關(guān)的物體上,并隨著任務(wù)進(jìn)度動態(tài)變化。
另外,我們進(jìn)行了消融實(shí)驗(yàn),證明了 HyperTASR 設(shè)計(jì)中,引入任務(wù)進(jìn)展的合理性,以及證明了使用超網(wǎng)絡(luò)相比于直接利用 Transformer 將任務(wù)信息融合到場景表征里,能夠獲得更大的性能提升。
真機(jī)實(shí)驗(yàn)
我們采用 Aloha 進(jìn)行了真機(jī) manipulation 實(shí)驗(yàn)。如 Table 2 所示,在 6 個(gè)實(shí)際任務(wù)中,HyperTASR 在僅每個(gè)任務(wù) 15 條示教樣本的有限條件下達(dá)到了 51.1%,展示了在真實(shí)環(huán)境操作中的強(qiáng)泛化能力。
一些真機(jī)實(shí)驗(yàn)對比結(jié)果如下:
參考
[1] Ze, Yanjie, et al."Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.
[2] Ke, Tsung-Wei, Nikolaos Gkanatsios, and Katerina Fragkiadaki."3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.