
MIT 用 AI 實(shí)現(xiàn)自動(dòng)摳圖,輕松打造效果驚艷的特效電影
來(lái)自 MIT CSAIL 的研究人員開發(fā)了一種精細(xì)程度遠(yuǎn)超傳統(tǒng)語(yǔ)義分割方法的「語(yǔ)義軟分割」技術(shù),連頭發(fā)都能清晰地在分割掩碼中呈現(xiàn)。在對(duì)比實(shí)驗(yàn)中,他們的結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于 PSPNet、Mask R-CNN、spectral matting 等基準(zhǔn)。這項(xiàng)技術(shù)對(duì)于電影行業(yè)的 CGI 技術(shù)具有重大意義,精細(xì)的分割掩碼能很好地分離圖像中的前景和背景,只要鼠標(biāo)一點(diǎn),就能輕易地改變前景、背景的種類。也就是說(shuō),像《變形金剛》《復(fù)仇者聯(lián)盟》《奇幻森林》中的大部分電影特效將可以完全自動(dòng)化地生成。
隨著電影越來(lái)越關(guān)注 CGI,電影制作人必須更加擅長(zhǎng)「合成」,即將前景和背景圖像融合,比如將演員放在飛機(jī)或行星上,或者放在電影《黑豹》里瓦坎達(dá)這樣的虛構(gòu)世界中。
讓這些圖像看起來(lái)真實(shí)并不容易。編輯必須捕捉前景和背景之間微妙的美學(xué)過渡,這對(duì)于頭發(fā)這種復(fù)雜精細(xì)的材料來(lái)說(shuō)尤其困難,因?yàn)槿藗円呀?jīng)習(xí)慣了它的樣子。
麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的訪問研究員 Yagiz Aksoy 說(shuō):「這些圖像的棘手之處在于,并非每個(gè)像素都只屬于一個(gè)物體。很多情況下,你很難確定哪些像素屬于背景,哪些屬于特定的人?!?
除了那些經(jīng)驗(yàn)最豐富的編輯,對(duì)其他人來(lái)說(shuō)要把這些細(xì)節(jié)都處理好是一件乏味、耗時(shí)且非常困難的事情。但是在一篇新論文中,Aksoy 和他在 MIT CSAIL 的同事展示了一種方法,使用機(jī)器學(xué)習(xí)來(lái)自動(dòng)化照片編輯過程中的多個(gè)步驟,并且稱這種方法也可用于運(yùn)動(dòng)圖像。
該方法允許他們自動(dòng)將輸入圖像分解成一組不同的層,這些層被層之間的一系列「軟過渡」分隔開。
該系統(tǒng)被稱為「語(yǔ)義軟分割」(semantic soft segmentation,SSS),它分析原始圖像的紋理和顏色,并將其與神經(jīng)網(wǎng)絡(luò)收集的圖像中物體的實(shí)際信息相結(jié)合。
Aksoy 說(shuō),「一旦計(jì)算出這些軟分割,用戶就不必手動(dòng)改變過渡或?qū)D像特定層的外觀進(jìn)行單獨(dú)修改。」他上周在溫哥華的計(jì)算機(jī)圖形學(xué)會(huì)議 SIGGRAPH 上展示了這篇論文。「手動(dòng)編輯任務(wù),如替換背景和調(diào)整顏色,將會(huì)變得更加容易?!?
不過要說(shuō)明的一點(diǎn)是,SSS 目前專注于靜態(tài)圖像。但是該團(tuán)隊(duì)表示,不久以后將它用于視頻也是可以的,這將推動(dòng)其在電影制作中的應(yīng)用。
Aksoy 表示,該方法不需要專業(yè)編輯花幾分鐘時(shí)間逐個(gè)幀、逐個(gè)像素地調(diào)整圖像,而是使處理過程更簡(jiǎn)單、快速,以便非專業(yè)用戶也可以更容易地進(jìn)行圖像編輯。他們期望,編輯只需點(diǎn)擊一下鼠標(biāo),就能組合圖像,創(chuàng)造那些成熟、真實(shí)的幻想世界。
他還表示,SSS 的目前版本可用于社交平臺(tái),如 Instagram 和 Snapchat,以使其過濾器更加真實(shí),特別是用于改變自拍背景或模擬特定類型的相機(jī)時(shí)。未來(lái),研究人員計(jì)劃將計(jì)算圖像所需時(shí)間從幾分鐘縮短到幾秒鐘,并通過提高系統(tǒng)匹配顏色和處理光照、陰影等問題的能力使圖像變得更加逼真。
論文:Semantic Soft Segmentation
論文鏈接:http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf
摘要:對(duì)圖像區(qū)域之間的軟過渡進(jìn)行準(zhǔn)確表征對(duì)于高品質(zhì)圖像編輯及合成至關(guān)重要。生成此類表征的現(xiàn)有技術(shù)很大程度上依賴于技術(shù)嫻熟的視覺藝術(shù)家,因?yàn)閳?zhí)行此類精確目標(biāo)選擇是一項(xiàng)繁冗的任務(wù)。本研究介紹了語(yǔ)義軟分割——一組與圖像中語(yǔ)義有意義的區(qū)域相對(duì)應(yīng)的層,它們?cè)诓煌瑢?duì)象之間有準(zhǔn)確的軟過渡。我們利用光譜分割角度來(lái)處理這個(gè)問題,并提出了一種圖結(jié)構(gòu),其包含圖像的紋理和顏色特征以及神經(jīng)網(wǎng)絡(luò)生成的高級(jí)語(yǔ)義信息。軟分割是通過精心構(gòu)建的拉普拉斯矩陣的特征分解完全自動(dòng)生成的。使用我們的語(yǔ)義軟分割,原本復(fù)雜的圖像編輯任務(wù)可以毫不費(fèi)力地完成。
圖 1:我們提出了一種方法,通過將高層次和低層次的圖像特征融合在一個(gè)圖結(jié)構(gòu)中來(lái)自動(dòng)生成軟分割,即表示語(yǔ)義上有意義的區(qū)域以及它們之間軟過渡的層。語(yǔ)義軟分割使用為每個(gè)分割部分分配純色的方法實(shí)現(xiàn)可視化,它們可用作目標(biāo)圖像編輯任務(wù)的掩碼,所選圖層可在圖層顏色評(píng)估之后用于合成。原始圖像來(lái)自 [Lin et al. 2014](左上、右下)、Death to the Stock Photo(右上)、Y. Aksoy(左下)。
圖 2:對(duì)于輸入圖像,我們生成像素級(jí)的超維語(yǔ)義特征向量,并利用紋理和語(yǔ)義信息定義一張圖。構(gòu)建該圖的目的是使對(duì)應(yīng)的拉普拉斯矩陣及其特征向量能夠揭示語(yǔ)義對(duì)象和對(duì)象之間的軟過渡(soft transition)。我們使用特征向量創(chuàng)建初步的軟分割集,并結(jié)合它們獲取具備語(yǔ)義含義的分割。最后,我們細(xì)化軟分割,使之可用于目標(biāo)圖像編輯任務(wù)。圖源:[Lin et al. 2014],編輯結(jié)果的背景來(lái)自 Flickr 用戶 rumpleteaser。
圖 9、10:我們展示了我們的結(jié)果以及 Zhao et al. [2017] (PSPNet)、He et al. [2017] (Mask R-CNN) 和光譜摳圖(spectral matting)[Levin et al. 2008b] 的結(jié)果。分割結(jié)果在灰度圖像上重疊展示,方便圍繞分割邊界進(jìn)行更好的評(píng)估。注意:PSPNet 和 Mask R-CNN 在物體邊界方面不夠準(zhǔn)確,而光譜摳圖的軟分割結(jié)果超出了對(duì)象邊界。圖源:[Lin et al. 2014]。
圖 11:利用輸入圖像(a)和特征向量(b),我們的方法生成了 matte,見(c)。我們展示了具備不同未知區(qū)域?qū)挾鹊?trimap,它們通過 PSPNet [Zhao et al. 2017] (d) 或 Mask R-CNN [He et al. 2017] (e) 的語(yǔ)義分割方法生成,無(wú)法可靠地提供前景和背景區(qū)域,對(duì)使用信息流摳圖(information-flow matting)[Aksoy et al. 2017a] 生成的結(jié)果造成負(fù)面影響。在底部示例中,PSPNet trimap 是通過選擇與對(duì)象對(duì)應(yīng)的單個(gè)類別(左)或所有類別而生成的。我們還提供利用結(jié)果(f)生成的 trimap 的摳圖結(jié)果,展示了在給出準(zhǔn)確 trimap 的情況下?lián)笀D算法的性能。圖源: [Lin et al. 2014]。
方法
我們的目標(biāo)是從輸入圖像自動(dòng)生成軟分割,也就是將場(chǎng)景中的目標(biāo)分解成多個(gè)層進(jìn)行表征,包括透明度和軟過渡。每個(gè)層的每個(gè)像素由一個(gè)不透明度α∈[0,1] 增強(qiáng),α=0 表示全透明,α=1 表示完全不透明,中間值表示部分不透明的程度。和該領(lǐng)域的其它研究(如 [Aksoy et al. 2017b; Singaraju and Vidal 2011])一樣,我們使用了一個(gè)加性的圖像構(gòu)造模型:
即我們將輸入的 RGB 像素表達(dá)為每個(gè)層 i 的像素之和,這些層由對(duì)應(yīng)的α值加權(quán)。我們還把每個(gè)像素的多個(gè)α值的和限制為 1,以表示完整的不透明輸入圖像。
我們的方法使用了與光譜摳圖相同的形式,也就是將軟分割任務(wù)形式化為特征值估計(jì)問題 [Levin et al. 2008b]。該方法的核心是構(gòu)建拉普拉斯矩陣 L 來(lái)表征圖像中每對(duì)像素屬于同一個(gè)分割的可能性。盡管光譜摳圖僅使用了低級(jí)局部顏色信息來(lái)構(gòu)建矩陣,我們描述了如何通過非局部線索和高級(jí)語(yǔ)義信息來(lái)增強(qiáng)這一方法。原始的方法也描述了如何利用稀疏化來(lái)從 L 的特征值來(lái)創(chuàng)建層,我們的研究表明,該原始技術(shù)的放寬限制的版本可以獲得更佳的結(jié)果。圖 2 展示了我們的方法的概覽。
圖 5:輸入圖像(a)、語(yǔ)義特征(b),與對(duì)應(yīng)本文提出的拉普拉斯矩陣(c,頂行)以及(光譜摳圖中使用的)摳圖拉普拉斯矩陣(d,底行)的最小特征值的幾個(gè)特征向量。綠色表示特征向量的正值,紅色表示負(fù)值。我們的拉普拉斯矩陣很清晰地揭示了特征向量中的語(yǔ)義邊界,而摳圖拉普拉斯矩陣的特征向量延伸到了語(yǔ)義邊界之外,如圖虛線框中所示。圖源:[Lin et al. 2014]。
圖 6:輸入圖像(a),像素級(jí)稀疏化之前的軟分割結(jié)果(b),像素級(jí)稀疏化之后的軟分割結(jié)果(c)。顏色編碼的分割部分使用單個(gè)阿爾法通道來(lái)展示,阿爾法通道對(duì)應(yīng)前景物體。最后一步清理因特征向量表達(dá)能力有限而造成的雜亂阿爾法值,同時(shí)維持軟過渡。底部示例展示了使用常數(shù) 0.9 作為稀疏化參數(shù) γ 的稀疏化結(jié)果(d),而我們使用空間變化的 γ_p 在過渡區(qū)域進(jìn)行松弛的稀疏化操作。其效果見嵌套小圖,我們的結(jié)果(c)保持了頭發(fā)周圍的軟過渡,而常數(shù)變量(d)導(dǎo)致了過度稀疏的結(jié)果。圖源:[Lin et al. 2014]。
圖 7:輸入圖像和計(jì)算出的語(yǔ)義特征(左),具備很多層的初始估計(jì)軟分割(中),grouping 后的中間軟分割結(jié)果(右)。通過為每個(gè)分割部分指定一個(gè)純色來(lái)可視化軟分割結(jié)果。注意這些結(jié)果會(huì)隨著松弛的稀疏化(relaxed sparsification)進(jìn)行進(jìn)一步細(xì)化。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03