
巴別塔的轟塌
圣經(jīng)舊約第十一章,講到了巴別塔的故事:人類聯(lián)合起來興建希望能通往天堂的高塔;為了阻止人類的計(jì)劃,上帝讓人類說不同的語(yǔ)言,使人類相互之間不能溝通,人類的宏偉計(jì)劃因此失敗,自此各散東西。
圣經(jīng)在這里解釋了為什么人類會(huì)產(chǎn)生不同語(yǔ)言和種族,當(dāng)然在今天,考古與進(jìn)化論已經(jīng)告訴我們?cè)虿⒉皇巧系壑?。?dāng)然,無論怎么解釋,語(yǔ)言的隔閡對(duì)人類社會(huì)產(chǎn)生的影響是如此之深與如此之廣,以至于時(shí)至今天仍然不能例外。
人類對(duì)于信息是有著基本的需求,就如吃飯睡覺一樣,而語(yǔ)言的產(chǎn)生剛好滿足了這些需求,可是不同語(yǔ)言的隔閡卻又阻礙了這種基本需求,于是翻譯職業(yè)成為了溝通兩個(gè)社會(huì)與文化的橋梁。翻譯精通各種語(yǔ)言,游走于各種人群中,加強(qiáng)了了不同文化間的各種信息交流。但是精通各個(gè)語(yǔ)言的技能對(duì)于一個(gè)人來講需要多語(yǔ)言環(huán)境與很長(zhǎng)時(shí)間的訓(xùn)練,而普通人往往無法做到,所以,人類這種基本需求雖然得到了改善,但顯然還不夠,還需要一種更加容易的方法或載體去滿足這個(gè)需求。上個(gè)世紀(jì)計(jì)算機(jī)的產(chǎn)生,為這種需求提供了一種可能的途徑:機(jī)器翻譯。
機(jī)器翻譯的序幕與低潮-人類的自我否定
上個(gè)世紀(jì)之初,圖靈大神提出計(jì)算機(jī)的可行性理論,約翰·馮·諾依曼大神提出了具體實(shí)現(xiàn)的方案,1946年,賓夕法尼亞大學(xué)的兩位教授發(fā)明了人類歷史的第一臺(tái)計(jì)算機(jī),幾乎是在同時(shí),美國(guó)洛克菲勒基金會(huì)副總裁韋弗在討論計(jì)算機(jī)的應(yīng)用范圍時(shí),提出了利用計(jì)算機(jī)實(shí)現(xiàn)語(yǔ)言的自動(dòng)翻譯的想法,并且很多學(xué)者與實(shí)業(yè)家表示支持??梢?,人類對(duì)信息能夠互通的這種渴望有多么強(qiáng)烈!
不同語(yǔ)言都在于描述客觀世界與人類社會(huì),其本質(zhì)一致,唯一不同在于編碼與解碼的方式。同樣是我,英語(yǔ)常用“I”,漢語(yǔ)常用“我”,無非是讀音與字形不一。另外,可以嘗試通過一個(gè)中介語(yǔ)言去統(tǒng)一所有語(yǔ)言的編碼從而作為計(jì)算機(jī)輸入輸出的中間層從而實(shí)現(xiàn)翻譯,這也就是韋弗當(dāng)初的想法,也是當(dāng)時(shí)的主流思想:直接按詞翻譯。
于是機(jī)器翻譯大熱與政治因素,美國(guó)、蘇聯(lián)、歐洲政府都投入了大量的資金支持機(jī)器翻譯的研究,中國(guó)也在1956年將機(jī)器翻譯列入了全國(guó)科學(xué)工作發(fā)展規(guī)劃,1957 年,中國(guó)科學(xué)院語(yǔ)言研究所與計(jì)算技術(shù)研究所合作開展俄漢機(jī)器翻譯試驗(yàn),翻譯了9 種不同類型的較為復(fù)雜的句子。
但是, 1964年,美國(guó)科學(xué)院成立語(yǔ)言自動(dòng)處理咨詢委員會(huì),調(diào)查機(jī)器翻譯的研究情況,給出了“在目前給機(jī)器翻譯以大力支持還沒有多少理由”的結(jié)論,全面否定了機(jī)器翻譯的可行性,并建議停止對(duì)機(jī)器翻譯項(xiàng)目的資金支持,這也是由于當(dāng)時(shí)的計(jì)算機(jī)性能不佳與自然語(yǔ)言本身的復(fù)雜所致。由此機(jī)器翻譯由此陷入低潮,此時(shí)上帝笑了,你們永遠(yuǎn)別想再造巴別塔,那么機(jī)器翻譯之路就這么被打斷嗎,人類的動(dòng)力來自希望,可此時(shí),希望變成了絕望…
基于規(guī)則的機(jī)器翻譯-不盡如人意
到了上個(gè)世紀(jì)七十年代,計(jì)算機(jī)性能與全球化的發(fā)展使得機(jī)器翻譯重回人們視野,此時(shí)對(duì)于實(shí)現(xiàn)機(jī)器翻譯,語(yǔ)言學(xué)家喬姆斯在博士論文中,他開始發(fā)現(xiàn)自己的一些語(yǔ)言學(xué)思想,后來他將這些進(jìn)一步闡發(fā),寫成了他在語(yǔ)言學(xué)方面大概最有名的著作《句法結(jié)構(gòu)》,他認(rèn)為一種語(yǔ)言無限的句子可以由有限的規(guī)則推導(dǎo)出來,于是重視句法分析成為機(jī)器翻譯的主流。
任何一門語(yǔ)言的句子,無論其再長(zhǎng),再難,只要準(zhǔn)確得確定其結(jié)構(gòu),調(diào)整好語(yǔ)序,再根據(jù)構(gòu)成句子成分的各個(gè)詞語(yǔ)的含義,翻譯起來就能夠非常準(zhǔn)確。這里所謂規(guī)則,指的就是句法結(jié)構(gòu)與語(yǔ)序特點(diǎn)。其實(shí),這和人類翻譯的思路是一脈相承的。人類翻譯非常靈活,可以準(zhǔn)確無誤得翻譯哪怕是不服從句法規(guī)則的語(yǔ)言,但是機(jī)器便有很多問題來了,句子的規(guī)則源于人,所以有大有小,有的甚至沒規(guī)則,這樣計(jì)算機(jī)在面對(duì)多樣句法的句子中,顯得極不穩(wěn)定,尤其是面對(duì)較細(xì)的規(guī)則。這也是基于規(guī)則的機(jī)器翻譯的致命軟肋,也是至今這種方法沒有突破進(jìn)展的原因。
此時(shí)上帝又笑了,不過如此嘛…
基于統(tǒng)計(jì)的機(jī)器翻譯-新思路
“MY GOD”-“我勒個(gè)擦”
應(yīng)該沒人會(huì)認(rèn)為以上的翻譯會(huì)出自機(jī)器。
1993年,IBM的一個(gè)工程師提出了利用統(tǒng)計(jì)方法去進(jìn)行機(jī)器翻譯的思路,1999年,約翰·霍普金斯大學(xué)的研究者實(shí)現(xiàn)了統(tǒng)計(jì)機(jī)器翻譯的基石。
既然是統(tǒng)計(jì)方法,就需要給出已知的翻譯成例以作為訓(xùn)練樣本,這便是一個(gè)龐大的平行語(yǔ)料庫(kù)。在現(xiàn)成的翻譯的句子中,有些詞可以被翻譯成多個(gè)詞,有些則完全不需要翻譯,這里一個(gè)句子中的每個(gè)詞語(yǔ)便有各種翻譯的概率,并且還有相對(duì)于平行文本句子中的位置的概率,于是這些都成了統(tǒng)計(jì)學(xué)意義上的參數(shù),機(jī)器本身并不需要知道詞的含義,但如果它知道這些參數(shù),再對(duì)于一個(gè)需要翻譯的句子,給出它各種翻譯和其相對(duì)位置的概率,然后挑選概率最高的作為輸出,得到了翻譯結(jié)果。從概率論的角度上看,其實(shí)便是求多種情況下條件概率最大值的問題。
下面四個(gè)例子,說明了這種翻譯的效果:
“我是機(jī)器人“,顯然這句話習(xí)慣翻譯為I am a ROBOT。但貌似機(jī)器給出的結(jié)果缺少了謂語(yǔ),這是為何?加個(gè)逗號(hào)試試:
呵呵,是不是接近答案啦。這里第一個(gè)情況,機(jī)器將其識(shí)別為一個(gè)短語(yǔ),也就是當(dāng)成了一個(gè)整體,而不是句子,這個(gè)時(shí)候,參數(shù)估計(jì)中重要的位置參數(shù)便會(huì)丟失,于是機(jī)器機(jī)器將其當(dāng)短語(yǔ)識(shí)別,在平行預(yù)料庫(kù)中,只計(jì)算”我是機(jī)器人“這個(gè)短語(yǔ)的在平行語(yǔ)料庫(kù)中最大可能的翻譯。記得威爾史密斯那部經(jīng)典的關(guān)于人工智能的電影嗎?它就叫《I ROBOT》。
加了逗號(hào)以后,機(jī)器將其識(shí)別為一個(gè)分句,這時(shí)有個(gè)位置與翻譯概率兩者共同決定了最大可能的翻譯,命中了。那么,加個(gè)句號(hào)不就是一個(gè)完整的句子了嗎,試試:
這次是有謂語(yǔ),但是時(shí)態(tài)錯(cuò)了。為啥呢?機(jī)器肯定是在尋找了大量平行語(yǔ)料計(jì)算條件概率再給出了這個(gè)結(jié)果,而語(yǔ)料產(chǎn)生于人,在一個(gè)完整的句子中,人說自己是機(jī)器人,通常是一種虛擬語(yǔ)氣,一種情況是你在抱怨任務(wù)太多,希望自己是個(gè)機(jī)器人能夠短時(shí)間完成任務(wù),于是謂語(yǔ)是was而不是am,意在表達(dá)這種情況并非真實(shí),但有此意愿。所以如果是“我不是機(jī)器人”這句話,虛擬語(yǔ)氣就應(yīng)該沒有問題了,那么我們看看:
這下對(duì)了吧,人確實(shí)不是機(jī)器人嘛,在英語(yǔ)中就不會(huì)出現(xiàn)虛擬語(yǔ)氣的情況了。
從以上的四個(gè)例子,可以看出統(tǒng)計(jì)機(jī)器翻譯的特點(diǎn):精準(zhǔn)但是依賴于平行語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)太少,顯然翻譯容易出問題,但是如果語(yǔ)料庫(kù)太多,統(tǒng)計(jì)算法會(huì)對(duì)計(jì)算機(jī)的性能提出更強(qiáng)大的要求,而這種要求其實(shí)就是對(duì)于人工智能的要求。
此時(shí),上帝打了個(gè)噴嚏,額,我沒事,這個(gè)貌似有點(diǎn)靠譜,但是你們還是造不出巴別塔。
再造巴別塔-任重道遠(yuǎn)
雖然統(tǒng)計(jì)機(jī)器翻譯表現(xiàn)出色,但是機(jī)器翻譯本身還很多問題,機(jī)器取代不了人類。中國(guó)數(shù)學(xué)家、語(yǔ)言學(xué)家周海中曾在論文《機(jī)器翻譯五十年》中指出:要提高機(jī)譯的譯文質(zhì)量,首先要解決的是語(yǔ)言本身問題而不是程序設(shè)計(jì)問題。也就是說,機(jī)器翻譯最終還是受制于人類對(duì)語(yǔ)言本身的了解,它到底是怎么產(chǎn)生的,大腦中是如何運(yùn)行的。。。路漫漫其修遠(yuǎn)兮啊,但還是要有信心,總有一日人類能夠重塑圣經(jīng),再造巴別塔!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07