
? 編輯:LRST
【新智元導(dǎo)讀】中科院自動(dòng)化所提出BridgeVLA模型,通過(guò)將3D輸入投影為2D圖像并利用2D熱圖進(jìn)行動(dòng)作預(yù)測(cè),實(shí)現(xiàn)了高效且泛化的3D機(jī)器人操作學(xué)習(xí)。實(shí)驗(yàn)表明,BridgeVLA在仿真和真實(shí)場(chǎng)景中均展現(xiàn)出卓越的性能和數(shù)據(jù)效率,僅需3條軌跡即可在基礎(chǔ)任務(wù)中達(dá)到96.8%的成功率。
近年來(lái),視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型在機(jī)器人操作任務(wù)中大放異彩,成為推動(dòng)通用機(jī)器人操作的重要引擎。
但現(xiàn)有的VLA模型,大多只以2D信息作為輸入,且需要大量的機(jī)器人數(shù)據(jù)進(jìn)行微調(diào);
反觀(guān)以PerAct,RVT-2為代表的3D操作策略,通常僅需要10條軌跡就能夠取得不錯(cuò)的效果,因此,一個(gè)很自然的想法是,是否能將現(xiàn)有的2D VLA升級(jí)為3D VLA,使其同時(shí)兼具2D VLA的效果以及3D操作策略的效率?
中科院自動(dòng)化所的研究人員提出的BridgeVLA給出了肯定的回答!
論文鏈接: https://www.arxiv.org/abs/2506.07961
項(xiàng)目主頁(yè): https://bridgevla.github.io/home_page.html
實(shí)驗(yàn)表明,BridgeVLA僅需采集3條軌跡就能在基礎(chǔ)設(shè)置中實(shí)現(xiàn)96.8%的任務(wù)成功率。
在多種泛化性設(shè)置中,比如未見(jiàn)過(guò)的干擾物、高度、光照、物體種類(lèi)以及未見(jiàn)過(guò)的物體技能組合等,BridgeVLA展現(xiàn)出碾壓式的性能,相較于基線(xiàn)模型取得了32%的性能提升。
在仿真中,BridgeVLA屠榜了主流3D機(jī)器人操作基準(zhǔn),在RLBench、COLOSSEUM、GemBench等三個(gè)仿真基準(zhǔn)中均取得了最先進(jìn)的性能。
圖1. BridgeVLA統(tǒng)一輸入與輸出的方案,兼顧泛化性與高效性
近來(lái),OpenVLA、pi0等2D VLA架構(gòu)在機(jī)器人領(lǐng)域取得了廣泛關(guān)注,它們借助預(yù)訓(xùn)練多模態(tài)大模型強(qiáng)大的表征能力,將自然語(yǔ)言指令、圖像觀(guān)測(cè)與動(dòng)作預(yù)測(cè)串聯(lián)在一起,展現(xiàn)出很強(qiáng)的泛化能力。
然而,這類(lèi)型2D VLA所帶來(lái)的代價(jià)同樣很大:為了讓模型真正學(xué)會(huì)每個(gè)任務(wù),往往需要上百條專(zhuān)家演示。這其中的數(shù)據(jù)收集、清洗與標(biāo)注需要高昂的人力成本,很難在更大規(guī)模的工業(yè)場(chǎng)景下落地。
與此同時(shí),研究者們發(fā)現(xiàn),如果直接在3D空間中學(xué)習(xí)動(dòng)作策略,憑借3D輸入蘊(yùn)含的顯式空間結(jié)構(gòu)信息,模型只需極少的軌跡就能掌握操作技能,具有很高的數(shù)據(jù)效率。
因此,理論上來(lái)講,將3D信息和VLA相結(jié)合是有可能構(gòu)造出一個(gè)高性能且高效率的3D VLA模型的。然而,當(dāng)前已有的3D VLA模型卻并未實(shí)現(xiàn)上述期待。
BridgeVLA的研究團(tuán)隊(duì)發(fā)現(xiàn),這背后有兩個(gè)方面的原因:
1)這些方案輸出形式割裂。大多數(shù)3D VLA方法把動(dòng)作輸出建模為 token 序列,這樣的做法割裂了動(dòng)作輸出與觀(guān)測(cè)輸入之間的空間對(duì)應(yīng)關(guān)系,難以充分利用三維幾何信息。
2)這些方案的輸入和預(yù)訓(xùn)練多模態(tài)大模型的輸入分布不匹配。預(yù)訓(xùn)練VLM是以2D 圖像作為輸入的,而這與微調(diào)階段的3D 輸入分布差異巨大,導(dǎo)致直接遷移效果不佳。
基于這些觀(guān)察,BridgeVLA的研究團(tuán)隊(duì)提出:如果將3D輸入與動(dòng)作輸出都統(tǒng)一到2D空間,同時(shí)將預(yù)訓(xùn)練階段的輸入和輸出也統(tǒng)一到2D空間的話(huà),將可以同時(shí)繼承2D VLA的泛化能力與3D操作策略的數(shù)據(jù)效率。
圖2. BridgeVLA 2D熱度圖預(yù)訓(xùn)練與3D動(dòng)作微調(diào)結(jié)構(gòu)圖
BridgeVLA的訓(xùn)練流程主要分為兩個(gè)階段:首先是2D 熱度圖預(yù)訓(xùn)練,然后是3D動(dòng)作微調(diào)。預(yù)訓(xùn)練階段主要用于提升模型的空間感知能力,使其具備從圖像和語(yǔ)言描述中精準(zhǔn)定位目標(biāo)區(qū)域的能力;而微調(diào)階段則通過(guò)三視角圖像進(jìn)行動(dòng)作預(yù)測(cè),完成具體的 3D 操作策略學(xué)習(xí)。
傳統(tǒng)的預(yù)訓(xùn)練多模態(tài)大模型在預(yù)訓(xùn)練階段主要通過(guò)預(yù)測(cè)token 序列來(lái)完成分類(lèi)或生成任務(wù),而這樣的token序列并不具備任何的空間結(jié)構(gòu)。
為了使模型具備空間定位能力,BridgeVLA 設(shè)計(jì)了一種熱度圖預(yù)訓(xùn)練方式,訓(xùn)練模型根據(jù)文本指令預(yù)測(cè)關(guān)于目標(biāo)對(duì)象位置的概率熱度圖,并使用了 RoboPoint 中的目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。
在模型結(jié)構(gòu)上,BridgeVLA使用了由SigLIP視覺(jué)編碼器和Gemma Transformer構(gòu)成的PaliGemma作為VLM主干。
預(yù)訓(xùn)練時(shí),模型的輸入為圖像與其對(duì)應(yīng)的文本描述(如圖中紅色的杯子在哪),然后通過(guò)PaliGemma提取特征,最后使用一個(gè)可學(xué)習(xí)的上采樣模塊生成與原圖同分辨率的熱度圖。
整個(gè)過(guò)程采用交叉熵?fù)p失進(jìn)行監(jiān)督訓(xùn)練。這種預(yù)訓(xùn)練策略使VLM獲得了空間感知能力,能夠根據(jù)語(yǔ)言描述在圖像中精準(zhǔn)定位目標(biāo)區(qū)域,為后續(xù)下游3D操作策略學(xué)習(xí)提供幫助。
在微調(diào)階段,模型的目標(biāo)是根據(jù)3D點(diǎn)云和語(yǔ)言指令輸出合理的機(jī)器人動(dòng)作。
具體來(lái)說(shuō),BridgeVLA首先從頂部、正面和右側(cè)三個(gè)方向?qū)Ⅻc(diǎn)云渲染為三幅2D圖像,并將其作為輸入送入經(jīng)過(guò)重新預(yù)訓(xùn)練的 VLM 主干網(wǎng)絡(luò)。模型隨后會(huì)為每個(gè)視角生成一張2D 熱度圖。
為了保持微調(diào)與預(yù)訓(xùn)練的一致性,VLM 的輸入中不包含機(jī)器人狀態(tài)或其他非視覺(jué)信息,從而避免輸入分布偏移。通過(guò)結(jié)合深度圖和相機(jī)參數(shù),三個(gè)熱度圖可以被反投影,從而得到末端執(zhí)行器的位置估計(jì)。
末端執(zhí)行器的旋轉(zhuǎn)姿態(tài)和夾爪開(kāi)閉狀態(tài)則通過(guò)額外引入的MLP進(jìn)行預(yù)測(cè)。
BridgeVLA在多個(gè)主流3D操作榜單上都取得了最先進(jìn)的性能。在RLBench中成功率達(dá)88.2%,相較于基準(zhǔn)模型提升了6.8%
而在環(huán)境出現(xiàn)顏色、材質(zhì)、物體大小等12種干擾的COLOSSEUM環(huán)境中相較于之前SoTA方法提升了7.3%,在同樣極具挑戰(zhàn)的GemBench環(huán)境中,即使面對(duì)全新位置、全新物體的考驗(yàn),BridgeVLA也取得了最佳的50%的成功率。
這些實(shí)驗(yàn)都證明了BridgeVLA具備很強(qiáng)的泛化能力,充分利用了預(yù)訓(xùn)練多模態(tài)模型中蘊(yùn)含的豐富視覺(jué)與語(yǔ)言先驗(yàn)知識(shí)。
圖3. BridgeVLA 在RLBench上的實(shí)驗(yàn)結(jié)果
圖4. BridgeVLA 在COLOSSEUM上的實(shí)驗(yàn)結(jié)果
圖5. BridgeVLA 在GemBench上的實(shí)驗(yàn)結(jié)果
BridgeVLA同時(shí)在真機(jī)實(shí)驗(yàn)中進(jìn)行了大規(guī)模實(shí)驗(yàn),BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響,同時(shí)也具有一定的組合泛化能力、和全新物體的泛化能力,這都得益于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)中蘊(yùn)含的先驗(yàn)特征。
同時(shí)BridgeVLA也證明了其極高的數(shù)據(jù)效率,僅僅使用3條軌跡就可以達(dá)到96.8%的基礎(chǔ)任務(wù)成功率,幾乎與使用10條軌跡訓(xùn)練的版本持平,結(jié)果表明BridgeVLA不僅泛化能力強(qiáng),而且對(duì)數(shù)據(jù)要求極低,非常適合在真實(shí)機(jī)器人系統(tǒng)中部署與擴(kuò)展。
圖6. BridgeVLA 在真機(jī)實(shí)驗(yàn)上的實(shí)驗(yàn)結(jié)果
BridgeVLA通過(guò)統(tǒng)一預(yù)訓(xùn)練的輸入輸出到二維圖像空間,建立起了一個(gè)高性能且高數(shù)據(jù)效率的3D VLA新范式。
可以預(yù)見(jiàn),未來(lái)將有更多類(lèi)似的探索推動(dòng) VLA 模型持續(xù)演進(jìn),邁向新的高度。
參考資料:
https://bridgevla.github.io
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10