
機(jī)器學(xué)習(xí)領(lǐng)域的突破性進(jìn)展(附視頻中字)
機(jī)器學(xué)習(xí)的發(fā)展涉及到各個(gè)方面,從語音識(shí)別到智能回復(fù)。但這些系統(tǒng)中的“智能”實(shí)際上是如何工作的呢?還存在什么主要挑戰(zhàn)?在本次講座中將一一解答。
Google I/O 是由Google舉行的網(wǎng)絡(luò)開發(fā)者年會(huì),Google I/O 2016 中圍繞機(jī)器學(xué)習(xí)領(lǐng)域的突破性進(jìn)展進(jìn)行了探討。
CDA字幕組對(duì)該視頻進(jìn)行了漢化,附有中文字幕的視頻如下:
機(jī)器學(xué)習(xí)領(lǐng)域的突破性進(jìn)展
針對(duì)不方便打開視頻的小伙伴,CDA字幕組也貼心的整理了文字版本,如下:
大家好,歡迎來到講座:關(guān)于機(jī)器學(xué)習(xí)的突破性進(jìn)展。
我們探討了谷歌對(duì)于 AI 的長期愿景,以及過去十年對(duì)機(jī)器學(xué)習(xí)的研究。這是十分重要的,因?yàn)樗杏脩舳计诖孥E發(fā)生。他們希望能與科技自然地交流,就像與人類交流一樣。很明顯,今天是不可能實(shí)現(xiàn)的,但是我們在向這個(gè)目標(biāo)努力。
我認(rèn)為人們常常忽略的是,谷歌不僅僅運(yùn)用熟知的機(jī)器學(xué)習(xí)方法,致力于逐步改進(jìn)產(chǎn)品。事實(shí)上我們有團(tuán)隊(duì)負(fù)責(zé)基礎(chǔ)性工作。為了改善機(jī)器學(xué)習(xí)最先進(jìn)的技術(shù),他們在山景城以及世界各地工作。
接下來你將聽到他們的一些工作成果。如果你也在探索復(fù)雜的事情,比如用Tensorflow工作,或者致力于機(jī)器學(xué)習(xí)模型,那么你可以通過這些演講者的經(jīng)驗(yàn)教訓(xùn)得到一些啟示。如果你是開發(fā)人員,想使用我們提供在云的機(jī)器學(xué)習(xí)API,你會(huì)很好地理解到哪些好用,以及你如何將其應(yīng)用到自己的產(chǎn)品中。希望你們能樂在其中。下面有請(qǐng)F(tuán)rancoise。
語音識(shí)別
大家好,我叫Francoise。我負(fù)責(zé)語音識(shí)別的工作。我在十年前加入谷歌。你可能很難想起,但十年前還沒有iPhone和安卓系統(tǒng)。那時(shí)語音識(shí)別主要應(yīng)用于呼叫中心,這有些煩人并不有意思。
我加入谷歌時(shí)有兩個(gè)目標(biāo):
一、讓語音識(shí)別變得有趣且實(shí)用;
二、讓語音識(shí)別更好地服務(wù)全球用戶。
如今過去了十年,安卓手機(jī)中約20%的查詢都是通過語音,我們將這視為一項(xiàng)成功。我們剛發(fā)布了Cloud Speech API,這能讓你們利用語音識(shí)別開發(fā)出更加有意思的產(chǎn)品。如今涵蓋了80種語言、近40億人口。
當(dāng)然你可以問我,達(dá)到這個(gè)成果為何花了十年? 畢竟語音識(shí)別很簡單,用一年就能實(shí)現(xiàn),幾年后就能進(jìn)行轉(zhuǎn)錄。但是如果看到不同的用戶和場景,當(dāng)中有不同的需求、不同的說法。
下面我想播放一些語音片段,請(qǐng)點(diǎn)擊下視頻。
(片段一: "大堡礁的水母季在什么時(shí)候?")
(片段二: 匈牙利語)這個(gè)人在講匈牙利語
(片段三:"大象會(huì)發(fā)出什么叫聲?")
這是我們需要預(yù)想到的數(shù)據(jù),不是么?我們想要為這些用戶提供服務(wù),無論他們是誰。我們竭盡所能,但有時(shí)候也會(huì)出錯(cuò)。
這是最近報(bào)告給我們的一個(gè)例子,一位用戶說的是西班牙語。他想表達(dá)的是 "打電話給朋友”,但我們識(shí)別成了他想要買鋼琴之類的。
再看下一個(gè)例子,你可能猜到了,我講法語。因此我用法語來測試我的產(chǎn)品。我跟識(shí)別器說"發(fā)生什么了?"卻得到這個(gè)結(jié)果。雖然聽起來一樣,但是拼寫完全不一樣。
隨后我在韓語也遇到這種情況,如果看到這些字符串,實(shí)際上它正確識(shí)別了每個(gè)韓文字符,但是空格的地方不正確。這就很不一樣了,從翻譯結(jié)果就能知道。
我們犯錯(cuò)了,但是這可是語言識(shí)別。語音識(shí)別就是機(jī)器學(xué)習(xí),所以我們能解決這個(gè)問題。但在我們探討如何糾正錯(cuò)誤之前,我想向你們展示語音識(shí)別的工作原理。
首先將語音波形圖輸入系統(tǒng),你希望從中得出句子。
系統(tǒng)中有三個(gè)模型:第一個(gè)是語音模型,負(fù)責(zé)提取語音片段,嘗試找出音素的分布概率以及語言中每個(gè)發(fā)音;第二個(gè)是發(fā)音模型,它從音素得出單詞;第三個(gè)是語言模型,通過概率將單詞連接起來。
這是一個(gè)等式,表明根據(jù)語音觀測我們試圖得出的最大概率的詞序列。通過一些數(shù)學(xué)基礎(chǔ),對(duì)應(yīng)不同的模型你能將其分解成三個(gè)概率。這些都在表明這是統(tǒng)計(jì)模型,由三個(gè)不同模型組成 ,當(dāng)中的一切都是可統(tǒng)計(jì)的。
我想多講講第一個(gè)語音模型,因?yàn)閹资陙砦覀冊谟靡环N稱為高斯混和模型的技術(shù)。多年來語音識(shí)別領(lǐng)域都用到該技術(shù)。但在2012年,我們改為使用神經(jīng)網(wǎng)絡(luò)。這花了一些時(shí)間,因?yàn)?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)需要時(shí)間進(jìn)行訓(xùn)練。它很龐大,想從系統(tǒng)中得到正確的特點(diǎn)需要做很多優(yōu)化工作。但最終我們完成了。
通過轉(zhuǎn)為使用神經(jīng)網(wǎng)絡(luò),準(zhǔn)確度得到了大幅度的改善。除此以外,它重啟了該領(lǐng)域的變革。用了基礎(chǔ)設(shè)施我們開始創(chuàng)新神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。我們使用它每個(gè)月我們都會(huì)推出新的結(jié)構(gòu),并且比過去的版本更加強(qiáng)大。
我們從深度神經(jīng)網(wǎng)絡(luò)過渡到LSTM(長短期記憶)遞歸神經(jīng)網(wǎng)絡(luò)。然后我們開始添加卷積層,這能讓我們更好地處理噪音和回響。之后是CTC(connectionist temporal classification)。這個(gè)我將會(huì)仔細(xì)說明。這些類型的進(jìn)步帶來了質(zhì)量的改善,因此在2015年對(duì)于不同的語言組,我們大大改善了準(zhǔn)確度。
回到CTC,就像我所說的。CTC能減少語音識(shí)別器的延遲,意味著當(dāng)你對(duì)識(shí)別器說話時(shí)你將更快地得到回復(fù),這種感覺很好。有時(shí)候事情很復(fù)雜,作為谷歌中研究語音識(shí)別的團(tuán)隊(duì),我們在生活中也得到了很多教訓(xùn)。但為了讓你們從那些經(jīng)驗(yàn)教訓(xùn)中獲益,我需要多講講語音識(shí)別的原理。
正如我所說我們使用大量的數(shù)據(jù)訓(xùn)練模型,它們來源各不相同, 將用來訓(xùn)練模型。模型進(jìn)入識(shí)別器,然后用識(shí)別器得出的數(shù)據(jù),反饋回到模型。因?yàn)槟切?shù)據(jù)很匹配我們要做的事情。問題在于數(shù)據(jù)有時(shí)會(huì)出現(xiàn)拼寫錯(cuò)誤,各種各樣的錯(cuò)誤。數(shù)據(jù)并不干凈,這會(huì)導(dǎo)致之前遇到的問題。
有一天,我們看到識(shí)別器輸出中出現(xiàn)了韓語單詞"keu-a”。我們并不是了解當(dāng)中的原因,于是開始分析。我們發(fā)現(xiàn)那是小孩子的聲音。人們在進(jìn)行語音查詢,背景出現(xiàn)了小孩子的聲音。對(duì)于這些背景的高音識(shí)別器不知道如何處理,所以它找到重元音的單詞就像"keu-a”。然后它會(huì)選出那個(gè)詞,進(jìn)行識(shí)別。由于之前向你們展示的反饋環(huán)路,它會(huì)反饋到系統(tǒng)中。如此反復(fù)。
但在我們解決這個(gè)問題之前,我們在英式英語中開始看到"kdkdkd"這個(gè)詞。你們能猜到它的由來嗎? 有人回答說是來自火車或地鐵。所以是人們在火車和地鐵上使用手機(jī),伴隨著"tick tick"的聲音,然后識(shí)別器不知道如何處理。
最后一個(gè)有些說不出口,是這個(gè)詞 "f*ck”。我們分析后發(fā)現(xiàn)是由于人們拿起手機(jī)然后講話,會(huì)先吸氣呼吸。這是吹氣的聲音。
我意識(shí)解決這個(gè)問題需要向系統(tǒng)輸入更多的人類知識(shí)。因此我們投入更多語言學(xué)家和人力資源,以解決這類問題。從而對(duì)數(shù)據(jù)更好地格式化,然后正確地轉(zhuǎn)錄數(shù)據(jù)。我們建立了很復(fù)雜的準(zhǔn)則,為了正確地轉(zhuǎn)錄數(shù)據(jù)。通過三百萬注釋的波形,我們可以訓(xùn)練語言模型,從數(shù)據(jù)中學(xué)習(xí)新的發(fā)音,增加語言模型訓(xùn)練集,這些都會(huì)帶來改善。
通過三百萬波形我們可以做很多工作,如果是三千萬呢? 因此我們開始努力轉(zhuǎn)錄3萬3千小時(shí)的人類語音,需要600人在合理時(shí)間內(nèi)完成。通過這些數(shù)據(jù)我們希望實(shí)現(xiàn)更加復(fù)雜、更加緊密的結(jié)構(gòu)。因此我們能夠使用,并且實(shí)現(xiàn)語音識(shí)別的夢想,即讓它服務(wù)到地球上的每個(gè)人。
謝謝,下面有請(qǐng) Andrew。
謝謝 Francoise。大家好,我是 Andrew。
這張是機(jī)器學(xué)習(xí)常見的圖,圖中有一些紅點(diǎn)和藍(lán)點(diǎn)。我們嘗試得出能夠區(qū)分紅點(diǎn)和藍(lán)點(diǎn)的模型。當(dāng)我們拿到新的輸入數(shù)據(jù),模型便可推測輸入的是紅點(diǎn)還是藍(lán)點(diǎn)。
在接下來的10分鐘里,我們將講些不一樣的內(nèi)容。這個(gè)是我,這張照片里只有我一個(gè)人。很難僅憑這點(diǎn)猜測我喜歡做什么。可能我喜歡戴帽子。但是你可以收集一些特征,訓(xùn)練模型,從而預(yù)測我喜歡做什么。
講講另外一種做法。不僅僅通過這個(gè)數(shù)據(jù),如果我把它和數(shù)據(jù)集中的相鄰數(shù)據(jù)一同考慮,添加關(guān)聯(lián)性。在這個(gè)例子中是加上我的孩子們?,F(xiàn)在可以推斷,也許我喜歡跟孩子們一起參加萬圣節(jié)活動(dòng)。
通過這種直覺,并不是獨(dú)立地對(duì)數(shù)據(jù)對(duì)象分類。我們可以利用不同數(shù)據(jù)點(diǎn)間的關(guān)系。
谷歌有個(gè)叫做Expander的基礎(chǔ)設(shè)施,專門完成這類任務(wù)。這是利用數(shù)據(jù)對(duì)象間關(guān)聯(lián)性的平臺(tái)。
舉個(gè)例子,很明顯我喜歡萬圣節(jié)的"trick-or-treating”。那么如果我能識(shí)別出南瓜將會(huì)很有用。在谷歌我們有個(gè)很棒的圖像理解系統(tǒng),這是它的工作原理。輸入一組帶有訓(xùn)練標(biāo)簽的圖像,接著它學(xué)習(xí)深度網(wǎng)絡(luò)。這種學(xué)習(xí)能使它識(shí)別新圖像,也能識(shí)別出未來的物體和圖像。
現(xiàn)在我們給它沒有標(biāo)簽的圖像,運(yùn)用模型給這些圖像貼標(biāo)簽。你可能會(huì)問我們最開始用到的那些標(biāo)簽怎么樣。它們不錯(cuò),但不是特別好。
左邊的一個(gè)圖是南瓜,右邊的是南瓜湯。如果你使用神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)南瓜的形狀,并接收這些輸入信息是很難的。
這是一個(gè)混合系統(tǒng),它以圖片為基礎(chǔ),學(xué)習(xí)關(guān)聯(lián)性,從而區(qū)分正確的訓(xùn)練數(shù)據(jù)。并在這個(gè)基礎(chǔ)之上,應(yīng)用深度網(wǎng)絡(luò)學(xué)習(xí)來辨識(shí)出正確的模型。
我們該怎么做呢? 我們已知這些數(shù)據(jù)對(duì)象的關(guān)系,在這些像素陣列之間,我們可以捕捉兩個(gè)圖形間相似點(diǎn)的嵌入映射。即這兩個(gè)圖像有多大幾率包括相同的物體。
我們已知是南瓜的物體,通過這些關(guān)聯(lián)線確認(rèn)我們最初的判斷,即物體為南瓜。當(dāng)我們看到右邊的圖片,我們也可以做同樣的操作??梢酝卣箖蓚€(gè)不是南瓜的例子。通過這些圖片得出結(jié)論,之前標(biāo)記為南瓜湯的對(duì)象不太準(zhǔn)確。
我們可以使用這種方法,減少訓(xùn)練數(shù)據(jù)里約40%的數(shù)據(jù)。這樣圖像分類的度量標(biāo)準(zhǔn)提高了9%。
讓我們看看它的工作原理,這個(gè)是圖像傳播的一種等式形式。我們寫一個(gè)罰函數(shù)(penalty function)得出數(shù)據(jù)中的相鄰關(guān)聯(lián)的效果。看到有l(wèi)u-lv的部分,這指數(shù)據(jù)集中U和V 節(jié)點(diǎn)數(shù)據(jù)相距多遠(yuǎn)。Wuv為權(quán)重,代表它們的關(guān)聯(lián)強(qiáng)度,然后加總整個(gè)數(shù)據(jù)集。這指具有相似信息的關(guān)聯(lián)線條語句匹配度的差距。然后我試著減少這個(gè)差距。
下面的這個(gè)等式表明,如果對(duì)每個(gè)數(shù)據(jù)對(duì)象進(jìn)行操作,使用相鄰對(duì)象的標(biāo)簽更新標(biāo)簽,對(duì)圖片中的所有數(shù)據(jù)都如此操作,如此重復(fù)。信息在圖片中傳遞,并得出收斂到成本函數(shù)的最佳分配。以上是算法方面。
還有系統(tǒng)方面,構(gòu)建這些系統(tǒng)是為了同時(shí)處理億萬量級(jí)的數(shù)據(jù)。我們想在圖片上進(jìn)行這樣的操作,使用這些技術(shù)我們開發(fā)了相應(yīng)的工具。
另外兩個(gè)例子。比如短信智能回復(fù)。這個(gè)圖片里的頂點(diǎn)是你可能會(huì)發(fā)送回復(fù)。線條代表相似信息,即這些回復(fù)可用于相似語境?;蛘呤窃~匯式相似,即詞語相同。或者詞語嵌入為基礎(chǔ)的相似。
有這張圖之后我們就可以運(yùn)行擴(kuò)展器來生成簇。這將返回相同意思的相似詞組。還可以針對(duì)特定用戶,根據(jù)語境選出合適選項(xiàng),對(duì)于不同簇的理解,可以確保我們提供多樣的選擇。因此我們并不是選擇三種方式表達(dá)相同的意思。
這在英語中運(yùn)用得很好,我們也可以在其他語言中做相同操作。比如專門用于問候的回復(fù)。在英語中我可能會(huì)說 "Hi!""How's things?" "What's up?”,這些句子之間有關(guān)聯(lián)。
在法語中我可能會(huì)說"Ca Va?" "Salut!”,我可以用谷歌翻譯的模型構(gòu)建法語變量和英語變量間的關(guān)聯(lián)。
我們能夠在其他語言中構(gòu)建智能回復(fù)功能的數(shù)據(jù)結(jié)構(gòu),比如葡萄牙語、印度尼西亞語、西班牙語,甚至是印度英語中。
再舉個(gè)例子,搜索查詢。我很喜歡萬圣節(jié)"trick-or-treating”。我想給我的孩子講一些萬圣節(jié)的故事,于是我向谷歌問一些問題,希望谷歌能夠返回直接回答我問題的文字。
這里是一張圖片,其各個(gè)頂點(diǎn)代表查詢需求。線條則表示兩個(gè)查詢能夠以相同的信息回復(fù)。實(shí)線是我確定的內(nèi)容,虛線則是不太確定的內(nèi)容。完成之后,我們就可以自動(dòng)解答億萬條搜索查詢中語義相等的問題了。
我們在圖片中使用機(jī)器學(xué)習(xí)來理解自然語言、搜索查詢、圖像和其他媒體對(duì)象。你們可能還聽過照片回復(fù),即用圖像回復(fù),這是用的相同的技術(shù)。我們可以使用相同的技巧生成簡要的模型,并實(shí)際應(yīng)用在安卓產(chǎn)品設(shè)備上。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03