
? 編輯:LRST
【新智元導讀】中科院自動化所提出BridgeVLA模型,通過將3D輸入投影為2D圖像并利用2D熱圖進行動作預測,實現(xiàn)了高效且泛化的3D機器人操作學習。實驗表明,BridgeVLA在仿真和真實場景中均展現(xiàn)出卓越的性能和數(shù)據(jù)效率,僅需3條軌跡即可在基礎任務中達到96.8%的成功率。
近年來,視覺-語言-動作(VLA)模型在機器人操作任務中大放異彩,成為推動通用機器人操作的重要引擎。
但現(xiàn)有的VLA模型,大多只以2D信息作為輸入,且需要大量的機器人數(shù)據(jù)進行微調;
反觀以PerAct,RVT-2為代表的3D操作策略,通常僅需要10條軌跡就能夠取得不錯的效果,因此,一個很自然的想法是,是否能將現(xiàn)有的2D VLA升級為3D VLA,使其同時兼具2D VLA的效果以及3D操作策略的效率?
中科院自動化所的研究人員提出的BridgeVLA給出了肯定的回答!
論文鏈接: https://www.arxiv.org/abs/2506.07961
項目主頁: https://bridgevla.github.io/home_page.html
實驗表明,BridgeVLA僅需采集3條軌跡就能在基礎設置中實現(xiàn)96.8%的任務成功率。
在多種泛化性設置中,比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等,BridgeVLA展現(xiàn)出碾壓式的性能,相較于基線模型取得了32%的性能提升。
在仿真中,BridgeVLA屠榜了主流3D機器人操作基準,在RLBench、COLOSSEUM、GemBench等三個仿真基準中均取得了最先進的性能。
圖1. BridgeVLA統(tǒng)一輸入與輸出的方案,兼顧泛化性與高效性
近來,OpenVLA、pi0等2D VLA架構在機器人領域取得了廣泛關注,它們借助預訓練多模態(tài)大模型強大的表征能力,將自然語言指令、圖像觀測與動作預測串聯(lián)在一起,展現(xiàn)出很強的泛化能力。
然而,這類型2D VLA所帶來的代價同樣很大:為了讓模型真正學會每個任務,往往需要上百條專家演示。這其中的數(shù)據(jù)收集、清洗與標注需要高昂的人力成本,很難在更大規(guī)模的工業(yè)場景下落地。
與此同時,研究者們發(fā)現(xiàn),如果直接在3D空間中學習動作策略,憑借3D輸入蘊含的顯式空間結構信息,模型只需極少的軌跡就能掌握操作技能,具有很高的數(shù)據(jù)效率。
因此,理論上來講,將3D信息和VLA相結合是有可能構造出一個高性能且高效率的3D VLA模型的。然而,當前已有的3D VLA模型卻并未實現(xiàn)上述期待。
BridgeVLA的研究團隊發(fā)現(xiàn),這背后有兩個方面的原因:
1)這些方案輸出形式割裂。大多數(shù)3D VLA方法把動作輸出建模為 token 序列,這樣的做法割裂了動作輸出與觀測輸入之間的空間對應關系,難以充分利用三維幾何信息。
2)這些方案的輸入和預訓練多模態(tài)大模型的輸入分布不匹配。預訓練VLM是以2D 圖像作為輸入的,而這與微調階段的3D 輸入分布差異巨大,導致直接遷移效果不佳。
基于這些觀察,BridgeVLA的研究團隊提出:如果將3D輸入與動作輸出都統(tǒng)一到2D空間,同時將預訓練階段的輸入和輸出也統(tǒng)一到2D空間的話,將可以同時繼承2D VLA的泛化能力與3D操作策略的數(shù)據(jù)效率。
圖2. BridgeVLA 2D熱度圖預訓練與3D動作微調結構圖
BridgeVLA的訓練流程主要分為兩個階段:首先是2D 熱度圖預訓練,然后是3D動作微調。預訓練階段主要用于提升模型的空間感知能力,使其具備從圖像和語言描述中精準定位目標區(qū)域的能力;而微調階段則通過三視角圖像進行動作預測,完成具體的 3D 操作策略學習。
傳統(tǒng)的預訓練多模態(tài)大模型在預訓練階段主要通過預測token 序列來完成分類或生成任務,而這樣的token序列并不具備任何的空間結構。
為了使模型具備空間定位能力,BridgeVLA 設計了一種熱度圖預訓練方式,訓練模型根據(jù)文本指令預測關于目標對象位置的概率熱度圖,并使用了 RoboPoint 中的目標檢測數(shù)據(jù)集進行預訓練。
在模型結構上,BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構成的PaliGemma作為VLM主干。
預訓練時,模型的輸入為圖像與其對應的文本描述(如圖中紅色的杯子在哪),然后通過PaliGemma提取特征,最后使用一個可學習的上采樣模塊生成與原圖同分辨率的熱度圖。
整個過程采用交叉熵損失進行監(jiān)督訓練。這種預訓練策略使VLM獲得了空間感知能力,能夠根據(jù)語言描述在圖像中精準定位目標區(qū)域,為后續(xù)下游3D操作策略學習提供幫助。
在微調階段,模型的目標是根據(jù)3D點云和語言指令輸出合理的機器人動作。
具體來說,BridgeVLA首先從頂部、正面和右側三個方向將點云渲染為三幅2D圖像,并將其作為輸入送入經(jīng)過重新預訓練的 VLM 主干網(wǎng)絡。模型隨后會為每個視角生成一張2D 熱度圖。
為了保持微調與預訓練的一致性,VLM 的輸入中不包含機器人狀態(tài)或其他非視覺信息,從而避免輸入分布偏移。通過結合深度圖和相機參數(shù),三個熱度圖可以被反投影,從而得到末端執(zhí)行器的位置估計。
末端執(zhí)行器的旋轉姿態(tài)和夾爪開閉狀態(tài)則通過額外引入的MLP進行預測。
BridgeVLA在多個主流3D操作榜單上都取得了最先進的性能。在RLBench中成功率達88.2%,相較于基準模型提升了6.8%
而在環(huán)境出現(xiàn)顏色、材質、物體大小等12種干擾的COLOSSEUM環(huán)境中相較于之前SoTA方法提升了7.3%,在同樣極具挑戰(zhàn)的GemBench環(huán)境中,即使面對全新位置、全新物體的考驗,BridgeVLA也取得了最佳的50%的成功率。
這些實驗都證明了BridgeVLA具備很強的泛化能力,充分利用了預訓練多模態(tài)模型中蘊含的豐富視覺與語言先驗知識。
圖3. BridgeVLA 在RLBench上的實驗結果
圖4. BridgeVLA 在COLOSSEUM上的實驗結果
圖5. BridgeVLA 在GemBench上的實驗結果
BridgeVLA同時在真機實驗中進行了大規(guī)模實驗,BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響,同時也具有一定的組合泛化能力、和全新物體的泛化能力,這都得益于預訓練骨干網(wǎng)絡中蘊含的先驗特征。
同時BridgeVLA也證明了其極高的數(shù)據(jù)效率,僅僅使用3條軌跡就可以達到96.8%的基礎任務成功率,幾乎與使用10條軌跡訓練的版本持平,結果表明BridgeVLA不僅泛化能力強,而且對數(shù)據(jù)要求極低,非常適合在真實機器人系統(tǒng)中部署與擴展。
圖6. BridgeVLA 在真機實驗上的實驗結果
BridgeVLA通過統(tǒng)一預訓練的輸入輸出到二維圖像空間,建立起了一個高性能且高數(shù)據(jù)效率的3D VLA新范式。
可以預見,未來將有更多類似的探索推動 VLA 模型持續(xù)演進,邁向新的高度。
參考資料:
https://bridgevla.github.io
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03