
出品 | CDA數(shù)據(jù)分析研究院,轉(zhuǎn)載需授權(quán)
人工智能和深度學(xué)習(xí)對大量領(lǐng)域產(chǎn)生了巨大影響,并在過去幾年中引發(fā)了很多破壞和進(jìn)展,這一事實(shí)對于許多人來說并不會讓人感到意外。
然而,有些人可能會感到驚訝的是,即使是藝術(shù)和創(chuàng)意領(lǐng)域,一直被視為明顯是人類的領(lǐng)域,也不會受到這些最新進(jìn)展的影響。
人工智能取代工作的恐懼是圍繞這些技術(shù)最常見的問題之一?,F(xiàn)在,它甚至正在侵蝕我們的創(chuàng)造性追求。這是否意味著我們不僅要擔(dān)心AI失去工作,還要擔(dān)心我們的人性?
雖然許多人擔(dān)心AI會取代或替代人類,或者認(rèn)為人工智能永遠(yuǎn)不會具有創(chuàng)造性,并且人工智能產(chǎn)生的任何東西在定義上都不是藝術(shù),我想提出另一種觀點(diǎn)。我相信先進(jìn)的人工智能將使我們能夠?qū)W⒂谖覀儶?dú)特的才能和優(yōu)勢,為我們提供創(chuàng)造性探索和表達(dá)的新工具,讓我們享受更高品質(zhì)的休閑時光。
最終它將使我們變得更加人性化。
在本文中,我首先想要向您介紹深度學(xué)習(xí)與藝術(shù)交叉的非常簡短(并且非常不完整)的介紹,并向您介紹一小部分采用神經(jīng)網(wǎng)絡(luò)作為首選媒介的藝術(shù)家。
然后,我想向您介紹我目前公司Qosmo過去幾年一直致力于的一些項(xiàng)目,以及我自己的一些個人項(xiàng)目。
最后,我想與大家分享一個未來的愿景,不僅是人工智能和創(chuàng)造力,還有更廣泛的工作和人性。
我希望在本文結(jié)束時,我會說服你們,我們既不應(yīng)該害怕人工智能正在削弱或貶低我們的人性,也不應(yīng)將其視為只影響日常工作但不會對我們的創(chuàng)造能力產(chǎn)生任何影響的東西。相反,我希望最終你會對AI的未來感到興奮,并且愿意接受它而不是作為競爭者,而是作為重獲和鞏固我們?nèi)诵缘挠辛ぞ摺?/span>
旁注:本文基于我在日本SciPy 2019和日經(jīng)AI 201峰會的擴(kuò)展版本中進(jìn)行的一系列會談。如果您更喜歡觀看視頻,可以在YouTube上找到SciPy演講。但是這篇文章既是最新的,也是更深入的,特別是關(guān)于知識工作和創(chuàng)造力未來的最后一節(jié),我在SciPy談話期間沒有時間去討論。
AI藝術(shù)的一個非常簡短的歷史
人工智能和創(chuàng)造力之間的聯(lián)系第一次從相當(dāng)深奧的圈子滲透到主流意識中,這可能是谷歌在2015年宣布推出DeepDream的時候。
想象一下盯著云,過了一會兒,你會感覺到你可以在那里看到一種模式,也許是一張臉。你盯著云看的時間越長,你對臉部的想法越多,你就越能說服自己,云中真的有一張臉盯著你看。
DeepDream本質(zhì)上就是這種現(xiàn)象的神經(jīng)網(wǎng)絡(luò)。
通過反復(fù)增強(qiáng)神經(jīng)網(wǎng)絡(luò)在圖像中拾取的圖案,最初非常微妙的圖案(或其想象的暗示)逐漸變成這些圖案的完整表現(xiàn)。通過這種方式,眼睛開始長出狗,蝸牛似乎從建筑物中萌芽,風(fēng)景變成奇異的城市景觀與童話塔。
從高中開始,一直到我的博士學(xué)位我偶爾會為樂隊制作音樂視頻。我的第一個使用深度學(xué)習(xí)的項(xiàng)目是在2016年我的博士學(xué)位結(jié)束時,當(dāng)時我使用DeepDream網(wǎng)絡(luò)在我為“The Void”字母和樹所做的視頻中實(shí)現(xiàn)了一種有點(diǎn)新穎的視覺效果。
雖然今天沒有人會對此感到興奮,但你必須記住,2016年是史前的深度學(xué)習(xí)術(shù)語。那時候它是一個非??岬男Чㄖ辽龠@是我的想法),這對我來說是一個很好的方式讓我熟悉TensorFlow(當(dāng)時還處于初期階段)以及一般的深度學(xué)習(xí)。
最近,我們已經(jīng)超越僅僅操縱現(xiàn)有圖像。特別是,我們已經(jīng)看到神經(jīng)網(wǎng)絡(luò)生成圖像的驚人突破。很大程度上,這歸功于一類稱為GAN,生成性對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)。
GAN基本上是通過使兩個網(wǎng)絡(luò)彼此相互作用,生成虛假數(shù)據(jù)的生成器和必須判斷數(shù)據(jù)是真實(shí)的鑒別器或評論者還是由生成器網(wǎng)絡(luò)創(chuàng)建的偽造,已經(jīng)達(dá)到了令人震驚的準(zhǔn)確性和可信度。在他們可以產(chǎn)生的那種圖像中。
特別受歡迎(和奇怪的)是(半)真實(shí)面孔相互變形的幻覺圖像,導(dǎo)致令人著迷的視頻。
由于最近實(shí)現(xiàn)了這種GAN偽造品的真實(shí)性,所以像thepersondoesnotexist.com這樣的網(wǎng)站的整個家庭手工業(yè)如雨后春筍般涌現(xiàn)。每次刷新該特定站點(diǎn)時,都會生成由神經(jīng)網(wǎng)絡(luò)設(shè)想的新的照片級真實(shí)肖像。雖然玩起來很有趣,但它也是圍繞Deep Fakes日益增長的問題和近乎完美的AI偽造時代的真實(shí)數(shù)據(jù)可信度的焦點(diǎn)。
這是我將在下面再次回到的一點(diǎn)。雖然人工智能藝術(shù)本身既有趣又有趣,但它也 - 就像其他形式的藝術(shù)一樣 - 使我們能夠突出問題并表達(dá)我們的關(guān)注。通過將這些問題或失敗點(diǎn)作為我們工作的基礎(chǔ)并將其置于極端,我們作為藝術(shù)家可以傳播意識和教育。
最好的藝術(shù)品不僅美觀,而且還邀請人們思考。
2018年10月,當(dāng)法國集體“Obvious”能夠以432,500美元的價格在著名的拍賣行Christie's拍賣他們的GAN生成的藝術(shù)品“Edmond de Belamy”時,AI藝術(shù)首次成為主流。
這引起了藝術(shù)和人工智能社區(qū)的騷動,并提出了人工智能能否真正產(chǎn)生藝術(shù)的問題。
然而,這遠(yuǎn)遠(yuǎn)不是它提出的唯一問題,拍賣結(jié)果的大部分注意力都集中在Obvious接近并實(shí)施該項(xiàng)目的路上。他們因?yàn)槟米邉e人的代碼,在一個結(jié)果有問題的簡單數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在畫布上銷售生成的輸出而面臨嚴(yán)厲的批評。
我不想深入討論Obvious是否應(yīng)該獲得金錢和關(guān)注(如果你感興趣,網(wǎng)上有很多討論,例如偉大出版物Artnome中的這篇文章)。然而,我想說,在我看來,無論我們是否將最終作品視為藝術(shù),Obvious都不是我看到真正藝術(shù)家的藝術(shù)家。
非常有說服力的是,他們甚至沒有用自己的名字簽名,而是使用了GAN算法的關(guān)鍵方程之一。就好像他們想說“我們沒有這樣做,人工智能成功了”。
這與真正的AI藝術(shù)家正在做的完全相反。
像畫家一樣研究他的畫筆和畫布,并改進(jìn)他的筆畫,就像鋼琴家研究她的樂器的復(fù)雜性和練習(xí)她的技巧一樣,真正的AI藝術(shù)家深入研究他正在使用的網(wǎng)絡(luò)以及他需要操縱它們的方式為了實(shí)現(xiàn)他所想到的創(chuàng)造性成果。
從這個意義上說,AI和神經(jīng)網(wǎng)絡(luò)不是創(chuàng)造者!它們是鋼筆,刷子,相機(jī),小提琴,鑿子等。它們是工具。
由于它們的高度復(fù)雜性和新穎性,它們看起來像魔術(shù)一樣,像自主創(chuàng)作者一樣,但最終它們僅僅是(希望)熟練創(chuàng)作者手中的工具。
對我而言,Obvious做的非常巧妙地利用這種新穎性和高復(fù)雜性來做出好的銷售。無論你怎么想他們的藝術(shù)天賦,他們肯定是聰明的企業(yè)家。
有點(diǎn)像有人在1985年推出它的邊緣,在MS Paint上做了一個簡單的草圖,將它印在一塊大帆布上,并將其拍賣下來。純粹的新穎性和(當(dāng)時)看似高度復(fù)雜的創(chuàng)造它的過程可能會帶來很高的價格并給人們留下深刻的印象。但它可能不會是“好藝術(shù)”。而MS Paint肯定不會是創(chuàng)造者。
就像數(shù)碼相機(jī)不再是模擬相機(jī)的創(chuàng)造者一樣,或者Photoshop不再是前數(shù)字圖形設(shè)計師的筆和紙的創(chuàng)造者,人工智能和深度學(xué)習(xí)也是如此 - 至少我們可以實(shí)際想象它們的方式在可預(yù)見的未來 - 不是創(chuàng)作者,而是創(chuàng)作者使用的工具。
對于那些對真正的自主創(chuàng)造力感到興奮的人來說,這可能會讓人有點(diǎn)失望。但我對此感到高興,并認(rèn)為這絕不會減少圍繞這些技術(shù)的興奮。它們?yōu)閯?chuàng)作者提供了真正全新的創(chuàng)作表達(dá)方式。它們不僅僅是作為固定工具,它們幾乎是一個元工具,它使我們能夠不斷創(chuàng)造新的工具和流程,以實(shí)現(xiàn)我們的創(chuàng)造性愿景。
有了這個關(guān)于我認(rèn)為真正的AI藝術(shù)家不在乎的人的咆哮,讓我簡要介紹一下我認(rèn)為屬于這一類的少數(shù)人。
這份清單絕不是詳盡無遺的,人工智能藝術(shù)家社區(qū)也在不斷發(fā)展。開始研究更廣泛的人工智能藝術(shù)的好地方是由Luba Elliott組織的創(chuàng)意和設(shè)計機(jī)器學(xué)習(xí)的NeurIPS研討會的畫廊。
為了簡潔起見,我也不會深入了解任何藝術(shù)家的細(xì)節(jié),但鼓勵你為自己檢查他們的藝術(shù)(和想法)。
認(rèn)識AI藝術(shù)家
可能最成熟的AI藝術(shù)家是Mario Klingemann。
Klingemann就像Obvious一樣,把注意力集中在GAN相關(guān)藝術(shù),尤其是肖像畫上。然而,與Obvious相反,他真正成為他們錯綜復(fù)雜的大師,確切地知道如何建造,訓(xùn)練和操縱它們以達(dá)到他所希望和設(shè)想的精確藝術(shù)成果。
他的許多作品都具有令人難以置信的微妙之處,讓人聯(lián)想到更傳統(tǒng)的藝術(shù)形式,通常將藝術(shù)美學(xué)與更抽象的藝術(shù)形式混合在一起。
“神經(jīng)小故障”; 正如他在接受藝術(shù)市場大師采訪時所描述的那樣,他對人工智能藝術(shù)追求的動力在于尋找“有趣” 。
“我試圖找到一種有趣的東西,這種搜索永遠(yuǎn)不會結(jié)束,因?yàn)橐坏┠阕プ∷蜁袷种械难┗ㄒ粯尤诨Ed趣隱藏在陌生的,不常見的和不可思議的之中,但是一旦你發(fā)現(xiàn)它并把它拖到聚光燈下,你看它越久,它就越熟悉或正常,最終失去它的趣味性。
我正在使用機(jī)器作為探測器來幫助我搜索不斷增長的信息,這些信息以加速的速度傳播到我們的世界。與此同時,我通過使用機(jī)器來生成有序的信息模式,而不是將其留給我自己的設(shè)備,從而增加了這一堆。有時在這個過程中,我決定并有時將其留在機(jī)器上。“
這種搜索方面是AI藝術(shù)中反復(fù)出現(xiàn)的主題。
我們可以想象所有可能的藝術(shù)作品的抽象空間。這個空間是令人難以置信的高維度和巨大的(可能是無限的,取決于我們考慮的媒體)。傳統(tǒng)上,藝術(shù)家只能非常緩慢地探索這個空間中的無限小區(qū)域。
神經(jīng)網(wǎng)絡(luò)本質(zhì)上提供了工具,使我們能夠更快,更廣泛地探索這個空間。人工智能藝術(shù)家的技能往往在于知道如何引導(dǎo)這種網(wǎng)絡(luò)化探索向“高度興趣”的地區(qū)。
克林格曼最近還在蘇富比拍賣了他的一件藝術(shù)品---記憶路人。這件作品不僅僅是一件靜態(tài)的藝術(shù)品,而是實(shí)際上包含了生成機(jī)制本身,導(dǎo)致了一個完全生成,無限期發(fā)展的裝置。
最終,該片獲得了“僅僅”32,000英鎊,這導(dǎo)致了一場廣泛的媒體風(fēng)暴,文章名為“人工智能藝術(shù)品拍賣,機(jī)器人大災(zāi)難尚未到來”,宣稱短暫的AI藝術(shù)場景已不復(fù)存在而不是好奇心,基本上已經(jīng)到了最后。
但是,我個人認(rèn)為這對AI藝術(shù)界來說是一個好兆頭(我認(rèn)為Mario Klingemann同意這一點(diǎn))。32,000英鎊是一個合理且非??捎^的價格,而不是表明人工智能藝術(shù)的終結(jié),它標(biāo)志著人工智能藝術(shù)炒作的結(jié)束以及對注意力/新奇經(jīng)濟(jì)的利用。
這表明AI藝術(shù)已經(jīng)成為一種嚴(yán)肅而受人尊敬的藝術(shù)形式,而不是過分夸大的好奇心。
與馬里奧·克林格曼的作品截然不同,但同樣有趣的是土耳其媒體藝術(shù)家Memo Akten的作品。
雖然克林格曼的作品非?!皩Wⅰ保ㄈ狈Ω玫脑~匯)并且與美術(shù)相關(guān),但阿克滕的作品更具概念性和多樣性。雖然他的最終結(jié)果可能看起來不那么“精致”,但它們都是基于通常非常簡單但巧妙和具有挑釁性的想法。
我非常鼓勵你看看他的作品目錄,但是我想與你分享我最喜歡的作品,他稱之為“學(xué)習(xí)”。
這個想法非常簡單,但結(jié)果既驚人又發(fā)人深省。
在訓(xùn)練過程開始時,神經(jīng)網(wǎng)絡(luò)通常是隨機(jī)初始化的,這意味著它們絕對沒有“現(xiàn)實(shí)世界”的概念。在訓(xùn)練期間,通過反復(fù)暴露于數(shù)據(jù),他們?nèi)缓笮纬墒澜绲膱D像(或至少是數(shù)據(jù)集中表示的世界)。如果此數(shù)據(jù)集存在偏差,那么受過訓(xùn)練的網(wǎng)絡(luò)的世界觀也是如此。
在學(xué)習(xí)中,Akten將這個想法發(fā)揮到了極致,并在非常不同的圖像數(shù)據(jù)集上訓(xùn)練了各種神經(jīng)網(wǎng)絡(luò)。
一個網(wǎng)絡(luò)只看到海洋和海岸線的圖像,另一個網(wǎng)絡(luò)只看到火災(zāi)圖像,而另一個網(wǎng)絡(luò)只看到了鮮花圖像。
結(jié)果,一旦網(wǎng)絡(luò)完成了他們的訓(xùn)練過程并在“真實(shí)世界”上發(fā)布,被展示出更多的通用圖像,他們只能根據(jù)他們學(xué)到的東西來解釋這些。
例如,“花卉網(wǎng)絡(luò)”并不知道如何解釋它在花朵方面所看到的一切,看到它看起來到處都是鮮花。
就好像一個孩子從孤立的環(huán)境中出生,只被花朵包圍,然后突然釋放到現(xiàn)實(shí)世界中。它的視覺皮層和模式識別系統(tǒng)可能會很難解釋新的模式,并且可能同樣看到各處的鮮花。
雖然這是一個思想實(shí)驗(yàn)而僅僅是推測,但眾所周知,我們?nèi)祟悓σ曈X感知中的某些模式具有自然(且非常有用)的偏見,例如看到面部的偏見。
學(xué)習(xí)觀察提出了一個有趣的問題,即由于我們獨(dú)特的成長和文化背景,我們每個人可能有多少偏見。
我們所看到和感知這個世界有多么不同?
雖然不太可能像Akten網(wǎng)絡(luò)的偏見那樣強(qiáng)烈,或者思想實(shí)驗(yàn)中的孩子,但幾乎可以肯定的是,人與人之間存在微妙的差異。
算法的偏差在過去已經(jīng)引起普遍關(guān)注。種族聊天機(jī)器人或性別歧視圖像識別/分類模型只是一些例子。它們實(shí)際上是數(shù)據(jù)驅(qū)動科學(xué)和深度學(xué)習(xí)中最基本的問題之一。
在某些情況下,偏見非常明顯。雖然這些案件肯定令人震驚和擔(dān)憂,但它們不太可能成為問題最嚴(yán)重的案例,僅僅因?yàn)樗鼈兎浅C黠@。隨著數(shù)據(jù)驅(qū)動技術(shù)變得越來越普遍,特別是微妙但全部存在的微小偏見既重要又難以發(fā)現(xiàn)和根除。
雖然我們可能沒有直接的解決方案,但作為藝術(shù)家,我們有能力在這個問題上引起關(guān)注,并讓外行人(以及經(jīng)驗(yàn)豐富的從業(yè)者)更容易接近,將其推向極致。
這就是我認(rèn)為很多有趣的AI藝術(shù)生活的地方,特別是Memo Akten也參與其中的更具概念性的類型:采用完善的神經(jīng)網(wǎng)絡(luò),并將它們推向(或超越)它們的突破點(diǎn)或適用范圍。這不僅會帶來有趣和意想不到的結(jié)果,而且還可以讓我們更深入地了解這些模型在現(xiàn)實(shí)世界場景中盲目松散時可能會產(chǎn)生的問題。
我想在這里介紹的最后一位藝術(shù)家是計算機(jī)設(shè)計講師Tom White。
他的項(xiàng)目Perception Engines,顧名思義,側(cè)重于感知在創(chuàng)造力中的作用。用他的話說,
“人類感知是創(chuàng)作過程中經(jīng)常被低估的部分,因此設(shè)計一個將感知放在首位和中心的計算創(chuàng)造過程是一項(xiàng)有趣的練習(xí)?!?/span>
同樣,它本質(zhì)上是一種欺騙神經(jīng)網(wǎng)絡(luò)的做法,通過巧妙地改變應(yīng)用它們的域來做它們最初不打算做的事情。
它使用了對抗性例子的概念,并對其進(jìn)行了有趣的藝術(shù)轉(zhuǎn)折。特別是,White建立了一個反饋循環(huán),網(wǎng)絡(luò)的感知引導(dǎo)創(chuàng)作過程,然后反過來再次影響感知。
簡而言之(并且有點(diǎn)簡化),懷特采用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來識別圖像中的對象,然后使用第二個系統(tǒng),該系統(tǒng)可以生成抽象形狀并搜索可以“欺騙”網(wǎng)絡(luò)進(jìn)入高確定性預(yù)測的結(jié)果一個特定的對象類。結(jié)果看似抽象的形狀(白色后來變成真正的屏幕打?。┤匀徽f服網(wǎng)絡(luò)是某些對象的照片級真實(shí)表示。
有趣的是,一旦我們知道網(wǎng)絡(luò)認(rèn)為它看到了什么,我們就可以在大多數(shù)情況下突然看到大多數(shù)圖像中的對象(盡管我懷疑是否有人被欺騙與真實(shí)的東西混淆)。
白色使用的真正過程實(shí)際上比我在這里給出的項(xiàng)目的縮略輪廓更加聰明和深刻。如果您對細(xì)節(jié)感興趣,我強(qiáng)烈建議您查看他的文章。
Qosmo:計算創(chuàng)造力和超越
現(xiàn)在您已經(jīng)對AI藝術(shù)的內(nèi)容有了一些了解,并了解了一些在這個新興領(lǐng)域工作的人,讓我簡要介紹一下我如何參與其中的故事。
我實(shí)際上是以物理學(xué)家的身份開始了我的學(xué)術(shù)生涯,在量子信息理論方面攻讀博士學(xué)位。但是在這樣做的過程中,我意識到我想做更多應(yīng)用的事情。通過我共同創(chuàng)辦的初創(chuàng)公司獲得了一些創(chuàng)業(yè)經(jīng)驗(yàn),我認(rèn)為AI從純粹的學(xué)術(shù)角度來看似乎既有趣,也是解決一些非??岬默F(xiàn)實(shí)世界問題(并賺取一些錢)的非常有前途的工具。
因此,在我獲得博士學(xué)位后,我在一家創(chuàng)業(yè)公司工作了幾年,這家公司將人工智能應(yīng)用于廣泛領(lǐng)域的商業(yè)問題,例如金融和醫(yī)療保健。雖然在這些領(lǐng)域肯定有一些有待解決的問題,但我個人對AI的創(chuàng)意方面越來越感興趣。
最終,在2019年2月,我終于決定辭掉我以前的工作,并和他的朋友NaoTokui一起在他的Qosmo公司工作。
Qosmo是一個位于東京的小型創(chuàng)意團(tuán)隊。該公司的核心理念是“計算創(chuàng)造力”,重點(diǎn)關(guān)注人工智能和音樂(但當(dāng)然不限于這些領(lǐng)域)。
在這里,我想簡要介紹一下我們過去的三個項(xiàng)目。
AI DJ
到目前為止,Qosmo最著名的項(xiàng)目可能是我們的AI DJ項(xiàng)目。
AI DJ最初始于2016年,是人與人之間的音樂對話。
在DJ中,“背對背”的演奏意味著兩位DJ輪流選擇和混音。在我們的例子中,我們有一個人類與AI一起背靠背。
具體來說,人(通常是Nao)選擇一個軌道并混合它,然后AI接管并選擇一個軌道并混合它,依此類推,創(chuàng)造一個自然和連續(xù)的合作性能。
這種增強(qiáng)人類創(chuàng)造力和玩人與機(jī)器創(chuàng)造力關(guān)系的想法是我們在Qosmo所做工作的核心。我們對自主創(chuàng)意機(jī)器并不特別感興趣(我們也不相信它們在不久的將來是可能的),而是人類如何與人工智能和機(jī)器進(jìn)行交互以達(dá)到創(chuàng)造性目的。
AI DJ由幾個獨(dú)立的神經(jīng)網(wǎng)絡(luò)組成。核心是一個系統(tǒng),可以根據(jù)以前播放的曲目的歷史選擇一個曲目,以及一個可以進(jìn)行節(jié)拍匹配和混音的系統(tǒng)。
至關(guān)重要的是,我們不是使用數(shù)字音頻而是使用實(shí)際的黑膠唱片。AI必須學(xué)習(xí)如何物理操縱光盤(通過使用強(qiáng)化學(xué)習(xí)訓(xùn)練的微型機(jī)器人手臂),以便對齊節(jié)拍并獲得匹配的速度。
雖然該項(xiàng)目已有幾年歷史,但我們?nèi)栽诓粩嚅_發(fā)該系統(tǒng)。例如,使用相機(jī)來分析人群行為并嘗試通過調(diào)整此信息的軌道選擇來鼓勵人們跳得更多。
我們在過去的許多場地都采用了這種表現(xiàn),包括本地和全球。到目前為止,我們最大的表現(xiàn)是在Google I / O 2019上,我們在主要舞臺上進(jìn)行了一小時的演出,在CEO Sundar Pichai的主題演講之前讓人群熱身。
您可以在我們的網(wǎng)站上閱讀有關(guān)AI DJ細(xì)節(jié)的更多信息。
虛構(gòu)的Soundscapes
作為人類,我們將視覺和聽覺經(jīng)驗(yàn)聯(lián)系在一起??纯春┑膱D像,你可以很容易地想象出海浪和海鷗的聲音。看著繁忙的十字路口可能會引起汽車?yán)嚷暫褪┕ぴ胍簟?/span>
Imaginary Soundscapes是一個讓人工智能具有與圖像相關(guān)的類似想象聲音的實(shí)驗(yàn)。這是一個基于網(wǎng)絡(luò)的聲音安裝,讓用戶可以探索谷歌街景,同時沉浸在AI夢寐以求的想象聲景中。
從技術(shù)上講,它基于跨模態(tài)信息檢索技術(shù)的思想,例如圖像到音頻或文本到圖像。
該系統(tǒng)使用視頻(即視覺和音頻)輸入的兩個模型進(jìn)行訓(xùn)練:一個完善的,預(yù)先訓(xùn)練的圖像識別模型處理幀,而另一個卷積神經(jīng)網(wǎng)絡(luò)將相關(guān)的音頻作為譜圖圖像讀取,具有力的損失其輸出的分布盡可能接近第一個模型的分布。
經(jīng)過訓(xùn)練,這兩個網(wǎng)絡(luò)允許我們從我們龐大的環(huán)境聲音數(shù)據(jù)集中檢索特定場景的最佳匹配聲音文件。
生成的音景有時很有趣,有時很有趣,有時候會發(fā)人深思。其中許多符合人類的期望,而其他人則讓我們驚訝。我們鼓勵您自己迷失在想象中的音景中。
神經(jīng)Beatbox
我們最近的藝術(shù)項(xiàng)目是Neural Beatbox,這是一個視聽裝置,目前在倫敦Barbican舉辦,作為“AI:More Than Human”展覽的一部分(其中還有Mario Klingemann和Memo Akten的作品)。
就像AI DJ一樣,這件作品以音樂對話為中心。然而,除了在AI DJ中,AI在這里不是參與者而是僅僅是輔導(dǎo)員,并且對話發(fā)生在安裝的不同觀看者之間。
節(jié)奏和節(jié)拍是人類之間最基本和最古老的交流方式。Neural Beatbox使任何人,無論他們的音樂背景和能力如何,都能用他們自己的聲音創(chuàng)造復(fù)雜的節(jié)拍和節(jié)奏。
當(dāng)觀眾接近安裝時,鼓勵他們錄制自己的短片,制作聲音和拉動有趣的面孔。使用該視頻,一個神經(jīng)網(wǎng)絡(luò)將觀眾的聲音分段,分析并分類成各種類型的鼓聲,其中一些然后被集成在當(dāng)前播放的節(jié)拍中。
同時,另一個網(wǎng)絡(luò)不斷產(chǎn)生新的節(jié)奏。
通過以這種方式結(jié)合后續(xù)觀眾的貢獻(xiàn),人們之間的直觀音樂對話展開,從而產(chǎn)生不斷發(fā)展的作品。
AI的輕微瑕疵,例如偶爾的錯誤分類或不尋常的節(jié)奏,實(shí)際上增強(qiáng)了創(chuàng)作體驗(yàn),并產(chǎn)生了有趣和獨(dú)特的音樂體驗(yàn)。作為觀眾,試圖通過制作“非鼓聲”來推動系統(tǒng)超出其預(yù)期的領(lǐng)域可以產(chǎn)生非常有趣的結(jié)果,其中一些實(shí)際上是令人驚訝的音樂和鼓舞人心的。
目前,Neural Beatbox僅限于在巴比肯展覽等公共場所展出,但我們正在考慮將其打開為基于網(wǎng)絡(luò)的互動作品。我們只是擔(dān)心互聯(lián)網(wǎng)上的人們可能會為這種安裝做出什么樣的聲音和視頻...雖然結(jié)果可能很有趣和有趣,但他們可能還會很快包含一些NSFW內(nèi)容。;)
生成模型和VAE
除了我(仍然是最近)在Qosmo的工作,我還做了一些我自己的藝術(shù)作品和更多與AI有關(guān)的一般創(chuàng)意相關(guān)項(xiàng)目。在向您展示其中的一些內(nèi)容之前,我簡單地想要進(jìn)行快速簡單的技術(shù)游覽。
創(chuàng)作場景中使用的許多模型都屬于“生成模型”的廣泛范疇。上面介紹的GAN是其中的一種變體。
生成模型本質(zhì)上是模型,正如其名稱所示,學(xué)習(xí)如何生成更多或更少的真實(shí)數(shù)據(jù)。物理學(xué)家理查德·費(fèi)曼(Richard Feynman)在一篇引述中非常清楚地概括了這背后的一般思想。
“我無法創(chuàng)造,我不明白?!?- 理查德費(fèi)曼
作為使用AI的研究人員和工程師,我們希望如果我們可以教我們的模型來創(chuàng)建至少模糊的數(shù)據(jù),那么這些模型必須對現(xiàn)實(shí)世界的樣子或行為方式有所了解。 。
換句話說,我們使用創(chuàng)造和生成有意義的輸出的能力作為智能的標(biāo)志。
不幸的是,這種“理解”或“智能”仍然常常如下圖所示。
雖然我們的模型肯定是在了解現(xiàn)實(shí)世界,但他們的知識領(lǐng)域往往受到嚴(yán)重限制,正如我們在偏見的例子中已經(jīng)看到的那樣。
在我之前從事實(shí)際業(yè)務(wù)應(yīng)用的工作中,這是個壞消息。您不希望您的財務(wù)或醫(yī)療預(yù)測看起來像上面的圖像!
然而,作為一名藝術(shù)家,我發(fā)現(xiàn)這令人興奮和鼓舞人心。事實(shí)上,正如已經(jīng)指出的那樣,許多藝術(shù)家故意尋求生成模型的這些突破點(diǎn)或邊緣情況。
我個人最喜歡的生成模型類型是所謂的變分自動編碼器,或簡稱VAE。從信息理論的角度來看,我發(fā)現(xiàn)它們既非常多才多藝,又美麗而優(yōu)雅。
簡而言之,VAE作為輸入饋送原始數(shù)據(jù),然后必須通過信息瓶頸壓縮和傳輸該數(shù)據(jù),并最終嘗試盡可能準(zhǔn)確地重建它。
由于信息瓶頸(更具技術(shù)性:潛在空間的維度低于數(shù)據(jù)空間),模型不能直接傳遞數(shù)據(jù),而是必須學(xué)習(xí)有效的抽象和概念。
例如,如果我們想將它應(yīng)用于狗和貓的圖像,而不是簡單地傳輸每個像素值,模型就被迫學(xué)習(xí)抽象,例如“狗”和“貓”的概念,腿和耳朵的概念,毛皮顏色等,它允許更緊湊(盡管通常不是完全無損)的數(shù)據(jù)表示。
作為這個過程的一個簡潔的副產(chǎn)品,我們得到了一個緊湊的數(shù)學(xué)描述,我們的數(shù)據(jù),一個所謂的潛在向量或嵌入。這允許我們做各種有趣的事情,例如有意義的數(shù)據(jù)比較以及數(shù)據(jù)點(diǎn)之間的實(shí)際插值,如上面的GAN面的示例中那樣。
如果你想更詳細(xì)地了解所有這些,我從兩個玩家之間的合作游戲的角度寫了一篇關(guān)于VAE的深入討論。
個人項(xiàng)目
我想在下面向您展示的項(xiàng)目都以某種方式使用VAE。
潛在的脈動
當(dāng)VAE初始化時,它的數(shù)據(jù)表示是完全隨機(jī)的,因?yàn)樗形磳W(xué)習(xí)任何有關(guān)訓(xùn)練數(shù)據(jù)的信息。隨著訓(xùn)練的展開,網(wǎng)絡(luò)逐漸學(xué)會了不同的概念和抽象,類似數(shù)據(jù)的集群在潛在的空間中開始形成,隨著模型的收斂,越來越多地結(jié)晶出來。
潛在脈動可視化一個這樣的訓(xùn)練過程,從初始隨機(jī)混亂,模型經(jīng)歷變換階段嘗試不同表示的各個階段,到最終建立在表現(xiàn)出相當(dāng)明顯的聚類的階段。
潛在空間中的每個點(diǎn)代表大約30萬個消費(fèi)者投訴文本中的一個,該文本涉及由不同顏色代表的約12種不同的金融產(chǎn)品(例如“信用卡”,“學(xué)生貸款”......)。
除了自然的學(xué)習(xí)過程中,我還添加了一些周期性的隨機(jī)噪聲的嵌入物,以創(chuàng)建與軌道同步跳動模式“2個頭腦”的InsideInfo,時間拉長從原來172bpm到160bpm,以更好地匹配視頻的幀速率。我選擇了軌道“2 Minds”,因?yàn)闃?biāo)題讓我想起了VAE的編碼器 - 解碼器關(guān)系。
通常在使用生成模型創(chuàng)建藝術(shù)時,我們會考慮模型創(chuàng)建的實(shí)際輸出。然而,潛在的脈動將這一概念轉(zhuǎn)移到它的頭部,表明潛在的空間本身可以具有固有的美感和藝術(shù)品質(zhì),即使模型訓(xùn)練的數(shù)據(jù)顯然是枯燥的,例如在這種情況下使用的消費(fèi)者投訴文本。
潛在的風(fēng)景
另一個相關(guān)的作品更深入地描繪了隱藏在潛在空間中的優(yōu)雅和美麗的潛在風(fēng)景。
我喜歡將這些視為神經(jīng)網(wǎng)絡(luò)的“腦部掃描”。
從技術(shù)上講,這些圖像是通過分析潛在空間的基本指標(biāo)而生成的這件作品實(shí)際上是[我們正在研究的研究論文的副產(chǎn)品)。粗略地說,潛在空間不是“平坦的”,并且它們內(nèi)的距離不均勻。潛在景觀可視化潛在空間中不同位置處的曲率,距離失真程度。
上述結(jié)果也基于在同一財務(wù)投訴數(shù)據(jù)集上訓(xùn)練的VAE,顯示了提醒外星人景觀或宇宙氣體云的抽象形態(tài)。
就像Latent Pulsations一樣,網(wǎng)絡(luò)本身,而不是生成模型的輸出,成為藝術(shù)品。
NeuralFunk
我想提到的最后一個項(xiàng)目是迄今為止我最大的個人項(xiàng)目。由于我之前已經(jīng)在媒體上廣泛撰寫了這個項(xiàng)目我只想給你一個非常簡短的概述。
NeuralFunk是一個使用深度學(xué)習(xí)進(jìn)行聲音設(shè)計的實(shí)驗(yàn)。這是一個完全由神經(jīng)網(wǎng)絡(luò)合成的樣本制成的實(shí)驗(yàn)軌道。
同樣,神經(jīng)網(wǎng)絡(luò)不是軌道的創(chuàng)造者,但它們是用于構(gòu)成軌道的唯一工具。因此,結(jié)果不是AI制作的音樂,而是使用AI作為探索創(chuàng)造性表達(dá)新方式的工具制作的音樂。
我在樣本的創(chuàng)建中使用了兩種不同類型的神經(jīng)網(wǎng)絡(luò),一種是在頻譜圖上訓(xùn)練的VAE和一種WaveNet(另外還可以用來自VAE的頻譜圖嵌入)。這些網(wǎng)絡(luò)共同提供了許多工具,用于生成新的聲音,從重新設(shè)想現(xiàn)有樣本或?qū)⒍鄠€樣本組合成獨(dú)特的聲音,夢想完全無條件的全新聲音。
然后將得到的樣品用于產(chǎn)生最終的軌道。
標(biāo)題為NeuralFunk的靈感來自鼓和低音子類型Neurofunk,這是我最初的想法。但在整個項(xiàng)目過程中,它變成了更具實(shí)驗(yàn)性的東西,與聲音設(shè)計過程本身的實(shí)驗(yàn)性質(zhì)相匹配。
如果你想了解這個項(xiàng)目的全部細(xì)節(jié)(包括代碼),請查看我的文章。
那么下一步對我來說是什么?
我對使用AI的擴(kuò)展現(xiàn)場表演有一個很大的愿景,它將與上面介紹的許多概念(和項(xiàng)目)相結(jié)合并將它們提升到一個新的水平,同時給我一種全新的音樂表現(xiàn)手段。
到目前為止,這只不過是一個愿景,考慮到項(xiàng)目的規(guī)模,我甚至有點(diǎn)害怕開始。
然而,我現(xiàn)在非常積極和熱情地工作的是一本關(guān)于Time Off重要性的書。
雖然這似乎有些切合實(shí)際,但它實(shí)際上在幾個方面完全與人工智能和創(chuàng)造力的關(guān)系聯(lián)系在一起。
為了讓你相信這一點(diǎn),讓我們繼續(xù)一下。起初看起來似乎是隨機(jī)的和無關(guān)的,但是請稍等一下,希望到最后你會同意我并對這個未來的愿景感到興奮。
工作,休閑和創(chuàng)造力的未來
在人類歷史的大部分時間里,工作的概念基本上等同于體力勞動。首先是田地和農(nóng)場,后來是工廠。
在20世紀(jì)初,普通工廠工人每天工作超過10小時,每周工作6天。
這一切都在1926年發(fā)生了變化,當(dāng)時亨利福特推出了8小時工作日和5天工作周(同時顯著提高了工資標(biāo)準(zhǔn)以上的工資)。
為什么福特這樣做?這不是因?yàn)樗皇且粋€好人。他可能已經(jīng),我不確定,但他這樣做的理由更實(shí)際,也更受商業(yè)驅(qū)動。
首先,他認(rèn)識到如果他提供比其他任何人更好的工作條件,他就可以輕松吸引最優(yōu)秀的人才。這正是發(fā)生的事情。最熟練的工人離開了他的競爭對手,并排隊到他的工廠工作。如果有人沒有表演,他就會放手。有足夠多的人愿意接管這個職位。
其次,他認(rèn)為如果人們沒有空閑時間或者太累,無法利用空閑時間,他們就不會在休閑活動上花錢。
“有更多休閑的人必須有更多的衣服。他們吃的食物種類更多。它們需要更多的車輛運(yùn)輸。[...]休閑是不斷增長的消費(fèi)市場中不可或缺的因素,因?yàn)閯趧尤嗣裥枰凶銐虻目臻e時間來尋找包括汽車在內(nèi)的消費(fèi)品的用途?!?/span>
這純粹是經(jīng)濟(jì)的。
通過給予他的工人更多的休閑(以及更多的錢用于休閑),同樣的工人最終能夠和激勵他們購買他們正在生產(chǎn)的產(chǎn)品。更多的空閑時間不會傷害,但會提振經(jīng)濟(jì)!
最后,最有趣的是我們在這里的討論,他意識到他的工人將能夠在更短的時間內(nèi)做得更好,原因有兩個。
對時間的限制將導(dǎo)致更多的創(chuàng)新和更好的方法。人們實(shí)際上會考慮如何工作,而不僅僅是研究。
“我們可以在五天內(nèi)獲得至少與六年一樣的產(chǎn)量,我們可能會獲得更大的產(chǎn)量,因?yàn)閴毫砀玫姆椒??!?- 亨利·福特
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11