首獲AAAI傑出論文獎，這個具身團隊讓機器人學會像人一樣“凝視”目標

想象這樣一個場景：一個機器人面前的桌上擺著一堆物體論文，其中包含紅色積木和藍色積木，此時，如果給出讓它“把紅色積木疊到藍色積木上”的指令，它是否能順利執行？

（來源：Nano Banana Pro）

對人類來說，這個任務聽起來十分簡單論文。因為你需要做的只是眼睛盯著紅色積木，伸手拿起，然後鎖定藍色積木，放到上面就大功告成。但對當前大多數機器人而言，事情並非如此。在很多時候，機器人的任務成功率並不穩定，它有可能徑直去操縱其他物體，而非目標物體。

為什麼如此簡單的任務論文，對於機器人來說卻無法穩定完成呢？

這是由於當前主流的 VLA 模型（Vision-Language-Action Model，視覺-語言-動作模型）在執行抓取任務時，視覺注意力往往呈彌散分佈論文。也就是說，模型雖能輸出動作序列，但其內部注意力並未真正聚焦於指令所指的目標物體（如紅色積木），而是分散在影像多個區域。

這種注意力錯位直接導致機器人的操作失誤，例如容易抓取錯誤物體，或在多物體環境中定位不準論文。

為了解決這一問題，來自香港科技大學（廣州）與西湖大學等高校的一支聯合研究團隊，在對主流 VLA 模型進行系統分析後，提出了 ReconVLA（重建式視覺-語言-動作模型）論文。

在這個模型中，他們創新性地引入了一種名為"隱式定位"（Implicit Grounding）的訓練正規化論文。不在推理階段額外加模組，不輸出邊界框，而是在訓練過程中，透過讓模型重建目標操作區域的影像，迫使它在視覺編碼階段就把注意力集中到正確的地方。

圖 | 團隊論文（來源：arXiv）

展開全文

據悉，該工作於上月榮獲 AAAI 國際先進人工智慧協會 2026 的傑出論文獎（Outstanding Paper Award）論文。

論文第一作者宋文軒告訴 DeepTech，當前 VLA 模型的主流架構，通常以一個預訓練好的 VLM 為主幹，再接上一個動作生成頭（action head），用來輸出機器人的控制訊號論文。這個架構裡，VLM 負責“看”和“理解”，動作頭負責“做”。

圖 | 宋文軒（來源：被訪者）

問題在於，VLM 最初是為影像理解和對話任務設計的，它學到的視覺表徵（visual representation）側重語義層面論文。比如識別一張圖裡有什麼東西、它們之間的關係。但對機器人操控來說，真正重要的不只是“圖裡有什麼”，而是“我該去操作哪裡”，這涉及到操作可供性（affordance）的感知，是一種 VLM 原生訓練目標中並不包含的能力。

另一位團隊核心成員之一丁鵬翔補充，通用視覺模型和具身控制任務之間存在顯著的領域差異（domain gap）論文。即便 VLM 在影像理解上極為強大，它也未必能自然遷移到機器人場景。這種能力缺失直接表現為視覺注意力的高度彌散。

圖 | 丁鵬翔（來源：受訪者）

在簡單場景下，注意力分散或許影響不大論文。如果桌上只有一個物體，就算注意力散一點，模型也大機率能抓對。但一旦場景變得雜亂，比如桌面上擺了五六樣東西，麻煩就來了。

團隊實驗表明，此時，“模型往往看到物體就抓”論文。只要腕部相機視野中出現可抓取目標，模型就傾向於執行抓取動作，至於抓的是不是人類期望的那個，它並不總是關心。抓取動作的成功率可能很高，但抓取的正確率則是另一回事。這說明模型完成了動作層面的任務，卻沒有與人類意圖對齊（intent alignment）。

另一個更隱蔽問題出現在長程任務（long-horizon task）中論文。所謂長程任務，就是需要多個步驟依次完成的操作鏈。因為即使每一步哪怕只有微小偏差，誤差會逐步累積，到後面幾步時，系統狀態可能已經偏離了訓練資料的分佈。丁鵬翔舉了一個直觀的數字：即便單步成功率高達 99%，連續執行 100 步後的整體成功率也只剩約 36.6%。

那麼，“隱式定位”到底是什麼意思？具體又該如何實現？丁鵬翔給了 DeepTech 類比：人類在執行精細操作時，雖然看到的是整個場景，但真正聚焦的只有一小片區域論文。如果指令是“拿杯子”，哪怕桌上放了十樣東西，人類的視覺焦點會自動鎖定在杯子上，周圍的一切都變得模糊。這種行為在視覺科學中叫做“凝視”（gaze）。

ReconVLA 借鑑了這一機制論文。在訓練階段，除了常規的動作預測損失之外，模型還需要完成一個輔助任務：重建當前影像中與操作目標對應的區域，即所謂的“凝視區域”（gaze region）。

圖 | 傳統 VLM、凝視區域和觀察注意力圖的視覺化（來源：論文）

具體來說，模型的視覺輸出 token（稱為"重建 token"，reconstructive token）會被輸入到一個輕量級的擴散變壓器（diffusion transformer）中，該擴散模組的目標是從噪聲中恢復出凝視區域的視覺特徵論文。如果模型在編碼階段沒有把注意力放在目標區域上，它輸出的重建 token 就不會包含足夠的細粒度資訊，擴散模組就無法完成重建，損失函式就會懲罰它。

這形成了一個流暢的反饋迴路：想要完成重建 → 必須關注目標 → 關注目標後視覺表徵更精確 → 動作預測更準論文。整個過程中，沒有任何顯式的邊界框輸出，也沒有外部檢測模型參與推理。重建模組只在訓練時存在，推理時被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規 VLA 模型完全一致，不引入任何額外延遲。

這和此前的視覺定位方法有什麼不同論文？

此前，視覺定位主要依賴於兩種正規化論文。一種是"顯式定位"（Explicit Grounding），比如 RoboGround 和 VIP 等工作，它們使用外部檢測模型（如 YOLO 或 LISA）先把目標物體裁剪出來，再把裁剪影像和原圖一起輸入 VLA。這種方法確實提供了更聚焦的視覺資訊，但它依賴外部模型的精度，且兩張影像的簡單拼接引入了資訊冗餘。

另一種是"思維鏈定位"（CoT Grounding），如 ECoT 和 GraspVLA，讓模型先輸出目標的邊界框座標，再輸出動作論文。這種方式在理論上很漂亮，但實驗結果顯示它甚至不如基線。在 CALVIN 基準測試中，CoT 方式的 5 步連續任務成功率幾乎為零。原因可能在於，座標形式的定位資訊對 VLA 模型來說並不是一種高效的引導訊號，同時要輸出精確座標和精確動作值，給訓練帶來了額外負擔。

圖 | 不同正規化之間的概念比較（來源：論文）

相比之下，ReconVLA 的隱式定位在同一基準上取得了最高成績論文。

在 CALVIN ABC→D 測試（要求模型在未見過的環境 D 中執行 5 步連續任務）中，ReconVLA 在第 5 個子任務上達到了 64.1% 的成功率，而基線模型為 49.0%，顯式定位方法為 50.2%，提升約 15 個百分點論文。在更具挑戰性的精細操作任務"積木堆疊"（stack block）中，基線成功率僅 59.3%，ReconVLA 達到 79.5%，提升超過 20 個百分點。

圖 | 不同正規化之間的測試分數對比（來源：論文）

為了讓重建能力具備泛化性，團隊還構建了一個大規模預訓練資料集，包含超過 10 萬條機器人操作軌跡和 200 萬個資料樣本論文。資料來源包括開源的 BridgeData V2 以及 LIBERO、CALVIN 兩個模擬環境資料集。

凝視區域的標註藉助了 Grounding DINO 這一開放詞彙檢測模型（open-vocabulary detector），大部分資料可以透過零樣本（zero-shot）方式直接標註，對於機器人場景中一些較為罕見或複雜的物體，團隊則進行了定製化微調論文。消融實驗證實，預訓練階段對泛化能力的提升是顯著的。移除預訓練後，5 步連續任務的最終成功率從 64.1% 下降至 58.2%。

真實世界的實驗進一步驗證了這一方法的可行性論文。

團隊使用一臺 6 自由度的 AgileX PiPer 機械臂，配合兩個深度相機（分別作為基座視角和手部視角），在四個代表性任務上進行了測試：將水果放入碗中、疊碗、翻杯子、整理桌面論文。在每個任務中，ReconVLA 都取得了最高成功率。

特別值得注意的是在“未見物體”（unseen objects）的測試中，當目標物體不在訓練資料中時，對比方法 OpenVLA 和 PD-VLA 的成功率接近零，而 ReconVLA 仍能成功定位目標並完成操作，展現出其視覺泛化能力論文。

圖 | 四個代表性任務的真實世界設定（來源：論文）

當然，任何方法都不是完美的論文。宋文軒向 DeepTech 坦言，ReconVLA 的主要額外成本在訓練階段——引入重建目標意味著更多的計算開銷，儘管團隊已經對擴散模組做了輕量化設計來控制這部分消耗。丁鵬翔指出了另一層侷限：當前建模仍然主要基於二維視覺空間，在需要深度資訊和三維幾何約束的高精度任務中，即便二維定位更加精確，空間操作精度仍然可能受限。

團隊透露，他們已在後續工作中開始探索三維感知建模（3D-aware modeling），相關成果已提交至近期的學術會議論文。此外，力覺感知和力控訊號等多模態資訊目前也尚未納入框架，但從方法結構上看，這些模態完全可以透過同樣的隱式建模機制整合進來。

談到具身智慧的落地前景，丁鵬翔的看法頗為務實論文。他認為 VLA 不必急於落地到某一個具體的垂直場景才算有價值。類比早期的 ChatGPT，GPT-3 釋出時並沒有立即嵌入某個特定行業流程，但它顯著改變了寫作和內容創作的效率。

VLA 的價值可能也會經歷類似的“兩步走”論文。第一步是降低部署成本。過去每個工廠任務都需要獨立建模，如果有一個足夠強的基礎模型，企業只需少量微調就能完成適配；第二步才是結合 Agent 系統構建具體場景的閉環工作流。

他還補充說，他們曾將經過通用訓練的模型部署到實際工業環境中測試擰螺絲、插接零部件等任務，結果顯示只要基座模型足夠穩定，下游任務效能就會顯著提升論文。他認為短中期更具潛力的場景包括半結構化工業裝配、輕工業精細操作以及商業服務機器人（如飲品製作）。這些場景的共同特點是操作鏈條明確、精度要求高、對重複性穩定性有剛需。

除研究外，這支團隊還共同建立了一個名為 OpenHelix 的開源社羣，目前已持續開源十餘個專案，累計獲得約 3,600 個 GitHub 星標論文。在資源有限的條件下，他們選擇了一條"高效與聚焦"的路線。不追求數百張 GPU 的大規模訓練和高度工程化的演示，而是專注於具有方法論洞見的研究方向。

他們相信，只有透過開放共享，研究成果才能真正落地到更多從業者手中論文。除了 ReconVLA 的後續迭代，團隊還在推進觸覺與力反饋、雙臂協作等方向的研究，目標是拓寬 VLA 的能力邊界，而不僅僅停留在單一展示型應用上。

參考連結論文：

運營/排版論文：何晨龍

首獲AAAI傑出論文獎，這個具身團隊讓機器人學會像人一樣“凝視”目標

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙