99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁大數(shù)據(jù)時(shí)代3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

2025-06-30

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

? 編輯：LRST

【新智元導(dǎo)讀】中科院自動(dòng)化所提出BridgeVLA模型，通過將3D輸入投影為2D圖像并利用2D熱圖進(jìn)行動(dòng)作預(yù)測(cè)，實(shí)現(xiàn)了高效且泛化的3D機(jī)器人操作學(xué)習(xí)。實(shí)驗(yàn)表明，BridgeVLA在仿真和真實(shí)場(chǎng)景中均展現(xiàn)出卓越的性能和數(shù)據(jù)效率，僅需3條軌跡即可在基礎(chǔ)任務(wù)中達(dá)到96.8%的成功率。

近年來，視覺-語言-動(dòng)作（VLA）模型在機(jī)器人操作任務(wù)中大放異彩，成為推動(dòng)通用機(jī)器人操作的重要引擎。

但現(xiàn)有的VLA模型，大多只以2D信息作為輸入，且需要大量的機(jī)器人數(shù)據(jù)進(jìn)行微調(diào)；

反觀以PerAct，RVT-2為代表的3D操作策略，通常僅需要10條軌跡就能夠取得不錯(cuò)的效果，因此，一個(gè)很自然的想法是，是否能將現(xiàn)有的2D VLA升級(jí)為3D VLA，使其同時(shí)兼具2D VLA的效果以及3D操作策略的效率？

中科院自動(dòng)化所的研究人員提出的BridgeVLA給出了肯定的回答！

論文鏈接： https://www.arxiv.org/abs/2506.07961

項(xiàng)目主頁： https://bridgevla.github.io/home_page.html

實(shí)驗(yàn)表明，BridgeVLA僅需采集3條軌跡就能在基礎(chǔ)設(shè)置中實(shí)現(xiàn)96.8%的任務(wù)成功率。

在多種泛化性設(shè)置中，比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等，BridgeVLA展現(xiàn)出碾壓式的性能，相較于基線模型取得了32%的性能提升。

在仿真中，BridgeVLA屠榜了主流3D機(jī)器人操作基準(zhǔn)，在RLBench、COLOSSEUM、GemBench等三個(gè)仿真基準(zhǔn)中均取得了最先進(jìn)的性能。

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

圖1. BridgeVLA統(tǒng)一輸入與輸出的方案，兼顧泛化性與高效性

近來，OpenVLA、pi0等2D VLA架構(gòu)在機(jī)器人領(lǐng)域取得了廣泛關(guān)注，它們借助預(yù)訓(xùn)練多模態(tài)大模型強(qiáng)大的表征能力，將自然語言指令、圖像觀測(cè)與動(dòng)作預(yù)測(cè)串聯(lián)在一起，展現(xiàn)出很強(qiáng)的泛化能力。

然而，這類型2D VLA所帶來的代價(jià)同樣很大：為了讓模型真正學(xué)會(huì)每個(gè)任務(wù)，往往需要上百條專家演示。這其中的數(shù)據(jù)收集、清洗與標(biāo)注需要高昂的人力成本，很難在更大規(guī)模的工業(yè)場(chǎng)景下落地。

與此同時(shí)，研究者們發(fā)現(xiàn)，如果直接在3D空間中學(xué)習(xí)動(dòng)作策略，憑借3D輸入蘊(yùn)含的顯式空間結(jié)構(gòu)信息，模型只需極少的軌跡就能掌握操作技能，具有很高的數(shù)據(jù)效率。

因此，理論上來講，將3D信息和VLA相結(jié)合是有可能構(gòu)造出一個(gè)高性能且高效率的3D VLA模型的。然而，當(dāng)前已有的3D VLA模型卻并未實(shí)現(xiàn)上述期待。

BridgeVLA的研究團(tuán)隊(duì)發(fā)現(xiàn)，這背后有兩個(gè)方面的原因：

1）這些方案輸出形式割裂。大多數(shù)3D VLA方法把動(dòng)作輸出建模為 token 序列，這樣的做法割裂了動(dòng)作輸出與觀測(cè)輸入之間的空間對(duì)應(yīng)關(guān)系，難以充分利用三維幾何信息。

2）這些方案的輸入和預(yù)訓(xùn)練多模態(tài)大模型的輸入分布不匹配。預(yù)訓(xùn)練VLM是以2D 圖像作為輸入的，而這與微調(diào)階段的3D 輸入分布差異巨大，導(dǎo)致直接遷移效果不佳。

基于這些觀察，BridgeVLA的研究團(tuán)隊(duì)提出：如果將3D輸入與動(dòng)作輸出都統(tǒng)一到2D空間，同時(shí)將預(yù)訓(xùn)練階段的輸入和輸出也統(tǒng)一到2D空間的話，將可以同時(shí)繼承2D VLA的泛化能力與3D操作策略的數(shù)據(jù)效率。

BridgeVLA是如何設(shè)計(jì)的？

圖2. BridgeVLA 2D熱度圖預(yù)訓(xùn)練與3D動(dòng)作微調(diào)結(jié)構(gòu)圖

BridgeVLA的訓(xùn)練流程主要分為兩個(gè)階段：首先是2D 熱度圖預(yù)訓(xùn)練，然后是3D動(dòng)作微調(diào)。預(yù)訓(xùn)練階段主要用于提升模型的空間感知能力，使其具備從圖像和語言描述中精準(zhǔn)定位目標(biāo)區(qū)域的能力；而微調(diào)階段則通過三視角圖像進(jìn)行動(dòng)作預(yù)測(cè)，完成具體的 3D 操作策略學(xué)習(xí)。

傳統(tǒng)的預(yù)訓(xùn)練多模態(tài)大模型在預(yù)訓(xùn)練階段主要通過預(yù)測(cè)token 序列來完成分類或生成任務(wù)，而這樣的token序列并不具備任何的空間結(jié)構(gòu)。

為了使模型具備空間定位能力，BridgeVLA 設(shè)計(jì)了一種熱度圖預(yù)訓(xùn)練方式，訓(xùn)練模型根據(jù)文本指令預(yù)測(cè)關(guān)于目標(biāo)對(duì)象位置的概率熱度圖，并使用了 RoboPoint 中的目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。

在模型結(jié)構(gòu)上，BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構(gòu)成的PaliGemma作為VLM主干。

預(yù)訓(xùn)練時(shí)，模型的輸入為圖像與其對(duì)應(yīng)的文本描述（如圖中紅色的杯子在哪），然后通過PaliGemma提取特征，最后使用一個(gè)可學(xué)習(xí)的上采樣模塊生成與原圖同分辨率的熱度圖。

整個(gè)過程采用交叉熵?fù)p失進(jìn)行監(jiān)督訓(xùn)練。這種預(yù)訓(xùn)練策略使VLM獲得了空間感知能力，能夠根據(jù)語言描述在圖像中精準(zhǔn)定位目標(biāo)區(qū)域，為后續(xù)下游3D操作策略學(xué)習(xí)提供幫助。

在微調(diào)階段，模型的目標(biāo)是根據(jù)3D點(diǎn)云和語言指令輸出合理的機(jī)器人動(dòng)作。

具體來說，BridgeVLA首先從頂部、正面和右側(cè)三個(gè)方向?qū)Ⅻc(diǎn)云渲染為三幅2D圖像，并將其作為輸入送入經(jīng)過重新預(yù)訓(xùn)練的 VLM 主干網(wǎng)絡(luò)。模型隨后會(huì)為每個(gè)視角生成一張2D 熱度圖。

為了保持微調(diào)與預(yù)訓(xùn)練的一致性，VLM 的輸入中不包含機(jī)器人狀態(tài)或其他非視覺信息，從而避免輸入分布偏移。通過結(jié)合深度圖和相機(jī)參數(shù)，三個(gè)熱度圖可以被反投影，從而得到末端執(zhí)行器的位置估計(jì)。

末端執(zhí)行器的旋轉(zhuǎn)姿態(tài)和夾爪開閉狀態(tài)則通過額外引入的MLP進(jìn)行預(yù)測(cè)。

泛化性能與采樣效率的兼得

BridgeVLA在多個(gè)主流3D操作榜單上都取得了最先進(jìn)的性能。在RLBench中成功率達(dá)88.2%，相較于基準(zhǔn)模型提升了6.8%

而在環(huán)境出現(xiàn)顏色、材質(zhì)、物體大小等12種干擾的COLOSSEUM環(huán)境中相較于之前SoTA方法提升了7.3%，在同樣極具挑戰(zhàn)的GemBench環(huán)境中，即使面對(duì)全新位置、全新物體的考驗(yàn)，BridgeVLA也取得了最佳的50%的成功率。

這些實(shí)驗(yàn)都證明了BridgeVLA具備很強(qiáng)的泛化能力，充分利用了預(yù)訓(xùn)練多模態(tài)模型中蘊(yùn)含的豐富視覺與語言先驗(yàn)知識(shí)。

圖3. BridgeVLA 在RLBench上的實(shí)驗(yàn)結(jié)果

圖4. BridgeVLA 在COLOSSEUM上的實(shí)驗(yàn)結(jié)果

圖5. BridgeVLA 在GemBench上的實(shí)驗(yàn)結(jié)果

BridgeVLA同時(shí)在真機(jī)實(shí)驗(yàn)中進(jìn)行了大規(guī)模實(shí)驗(yàn)，BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響，同時(shí)也具有一定的組合泛化能力、和全新物體的泛化能力，這都得益于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)中蘊(yùn)含的先驗(yàn)特征。

同時(shí)BridgeVLA也證明了其極高的數(shù)據(jù)效率，僅僅使用3條軌跡就可以達(dá)到96.8%的基礎(chǔ)任務(wù)成功率，幾乎與使用10條軌跡訓(xùn)練的版本持平，結(jié)果表明BridgeVLA不僅泛化能力強(qiáng)，而且對(duì)數(shù)據(jù)要求極低，非常適合在真實(shí)機(jī)器人系統(tǒng)中部署與擴(kuò)展。

圖6. BridgeVLA 在真機(jī)實(shí)驗(yàn)上的實(shí)驗(yàn)結(jié)果

BridgeVLA通過統(tǒng)一預(yù)訓(xùn)練的輸入輸出到二維圖像空間，建立起了一個(gè)高性能且高數(shù)據(jù)效率的3D VLA新范式。

可以預(yù)見，未來將有更多類似的探索推動(dòng) VLA 模型持續(xù)演進(jìn)，邁向新的高度。

參考資料：

https://bridgevla.github.io

推薦學(xué)習(xí)書籍《CDA一級(jí)教材》適合CDA一級(jí)考生備考，也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校，累計(jì)已有10萬+在讀~ 免費(fèi)加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

泛化能力特征目標(biāo)檢測(cè) 數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇【CDA干貨】LSTM 為何會(huì)產(chǎn)生誤差？深入剖析其背后的原因

下一篇探索 CDA 數(shù)據(jù)分析師在線課程：開啟數(shù)據(jù)洞察之旅

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

BridgeVLA是如何設(shè)計(jì)的？

泛化性能與采樣效率的兼得

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長(zhǎng)度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級(jí)考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者 ...

SQL 在預(yù)測(cè)分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢(shì)預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價(jià)值深化 ...

CDA 數(shù)據(jù)分析師考試：從報(bào)考到取證的全攻略 ...

【CDA干貨】單樣本趨勢(shì)性檢驗(yàn)：捕捉數(shù)據(jù)背后的時(shí)間 ...

year_month數(shù)據(jù)類型：時(shí)間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí) ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗(yàn)：數(shù)據(jù)趨勢(shì) ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略 ...

統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

BridgeVLA是如何設(shè)計(jì)的？

泛化性能與采樣效率的兼得

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長(zhǎng)度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級(jí)考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者 ...

SQL 在預(yù)測(cè)分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢(shì)預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價(jià)值深化 ...

CDA 數(shù)據(jù)分析師考試：從報(bào)考到取證的全攻略 ...

【CDA干貨】單樣本趨勢(shì)性檢驗(yàn)：捕捉數(shù)據(jù)背后的時(shí)間 ...

year_month數(shù)據(jù)類型：時(shí)間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí) ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗(yàn)：數(shù)據(jù)趨勢(shì) ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略 ...

統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機(jī)性能提升32%

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

BridgeVLA是如何設(shè)計(jì)的？

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略 ...