99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀機(jī)器翻譯之路-再造巴別塔
機(jī)器翻譯之路-再造巴別塔
2016-03-17
收藏

巴別塔的轟塌

圣經(jīng)舊約第十一章,講到了巴別塔的故事:人類聯(lián)合起來興建希望能通往天堂的高塔;為了阻止人類的計(jì)劃,上帝讓人類說不同的語(yǔ)言,使人類相互之間不能溝通,人類的宏偉計(jì)劃因此失敗,自此各散東西。

圣經(jīng)在這里解釋了為什么人類會(huì)產(chǎn)生不同語(yǔ)言和種族,當(dāng)然在今天,考古與進(jìn)化論已經(jīng)告訴我們?cè)虿⒉皇巧系壑?。?dāng)然,無論怎么解釋,語(yǔ)言的隔閡對(duì)人類社會(huì)產(chǎn)生的影響是如此之深與如此之廣,以至于時(shí)至今天仍然不能例外。

人類對(duì)于信息是有著基本的需求,就如吃飯睡覺一樣,而語(yǔ)言的產(chǎn)生剛好滿足了這些需求,可是不同語(yǔ)言的隔閡卻又阻礙了這種基本需求,于是翻譯職業(yè)成為了溝通兩個(gè)社會(huì)與文化的橋梁。翻譯精通各種語(yǔ)言,游走于各種人群中,加強(qiáng)了了不同文化間的各種信息交流。但是精通各個(gè)語(yǔ)言的技能對(duì)于一個(gè)人來講需要多語(yǔ)言環(huán)境與很長(zhǎng)時(shí)間的訓(xùn)練,而普通人往往無法做到,所以,人類這種基本需求雖然得到了改善,但顯然還不夠,還需要一種更加容易的方法或載體去滿足這個(gè)需求。上個(gè)世紀(jì)計(jì)算機(jī)的產(chǎn)生,為這種需求提供了一種可能的途徑:機(jī)器翻譯。

機(jī)器翻譯的序幕與低潮-人類的自我否定

上個(gè)世紀(jì)之初,圖靈大神提出計(jì)算機(jī)的可行性理論,約翰·馮·諾依曼大神提出了具體實(shí)現(xiàn)的方案,1946年,賓夕法尼亞大學(xué)的兩位教授發(fā)明了人類歷史的第一臺(tái)計(jì)算機(jī),幾乎是在同時(shí),美國(guó)洛克菲勒基金會(huì)副總裁韋弗在討論計(jì)算機(jī)的應(yīng)用范圍時(shí),提出了利用計(jì)算機(jī)實(shí)現(xiàn)語(yǔ)言的自動(dòng)翻譯的想法,并且很多學(xué)者與實(shí)業(yè)家表示支持??梢?,人類對(duì)信息能夠互通的這種渴望有多么強(qiáng)烈!

不同語(yǔ)言都在于描述客觀世界與人類社會(huì),其本質(zhì)一致,唯一不同在于編碼與解碼的方式。同樣是我,英語(yǔ)常用“I”,漢語(yǔ)常用,無非是讀音與字形不一。另外,可以嘗試通過一個(gè)中介語(yǔ)言去統(tǒng)一所有語(yǔ)言的編碼從而作為計(jì)算機(jī)輸入輸出的中間層從而實(shí)現(xiàn)翻譯,這也就是韋弗當(dāng)初的想法,也是當(dāng)時(shí)的主流思想:直接按詞翻譯。

于是機(jī)器翻譯大熱與政治因素,美國(guó)、蘇聯(lián)、歐洲政府都投入了大量的資金支持機(jī)器翻譯的研究,中國(guó)也在1956年將機(jī)器翻譯列入了全國(guó)科學(xué)工作發(fā)展規(guī)劃,1957 年,中國(guó)科學(xué)院語(yǔ)言研究所與計(jì)算技術(shù)研究所合作開展俄漢機(jī)器翻譯試驗(yàn),翻譯了9 種不同類型的較為復(fù)雜的句子。

但是, 1964年,美國(guó)科學(xué)院成立語(yǔ)言自動(dòng)處理咨詢委員會(huì),調(diào)查機(jī)器翻譯的研究情況,給出了“在目前給機(jī)器翻譯以大力支持還沒有多少理由”的結(jié)論,全面否定了機(jī)器翻譯的可行性,并建議停止對(duì)機(jī)器翻譯項(xiàng)目的資金支持,這也是由于當(dāng)時(shí)的計(jì)算機(jī)性能不佳與自然語(yǔ)言本身的復(fù)雜所致。由此機(jī)器翻譯由此陷入低潮,此時(shí)上帝笑了,你們永遠(yuǎn)別想再造巴別塔,那么機(jī)器翻譯之路就這么被打斷嗎,人類的動(dòng)力來自希望,可此時(shí),希望變成了絕望

基于規(guī)則的機(jī)器翻譯-不盡如人意

到了上個(gè)世紀(jì)七十年代,計(jì)算機(jī)性能與全球化的發(fā)展使得機(jī)器翻譯重回人們視野,此時(shí)對(duì)于實(shí)現(xiàn)機(jī)器翻譯,語(yǔ)言學(xué)家喬姆斯在博士論文中,他開始發(fā)現(xiàn)自己的一些語(yǔ)言學(xué)思想,后來他將這些進(jìn)一步闡發(fā),寫成了他在語(yǔ)言學(xué)方面大概最有名的著作《句法結(jié)構(gòu)》,他認(rèn)為一種語(yǔ)言無限的句子可以由有限的規(guī)則推導(dǎo)出來,于是重視句法分析成為機(jī)器翻譯的主流。

任何一門語(yǔ)言的句子,無論其再長(zhǎng),再難,只要準(zhǔn)確得確定其結(jié)構(gòu),調(diào)整好語(yǔ)序,再根據(jù)構(gòu)成句子成分的各個(gè)詞語(yǔ)的含義,翻譯起來就能夠非常準(zhǔn)確。這里所謂規(guī)則,指的就是句法結(jié)構(gòu)與語(yǔ)序特點(diǎn)。其實(shí),這和人類翻譯的思路是一脈相承的。人類翻譯非常靈活,可以準(zhǔn)確無誤得翻譯哪怕是不服從句法規(guī)則的語(yǔ)言,但是機(jī)器便有很多問題來了,句子的規(guī)則源于人,所以有大有小,有的甚至沒規(guī)則,這樣計(jì)算機(jī)在面對(duì)多樣句法的句子中,顯得極不穩(wěn)定,尤其是面對(duì)較細(xì)的規(guī)則。這也是基于規(guī)則的機(jī)器翻譯的致命軟肋,也是至今這種方法沒有突破進(jìn)展的原因。

此時(shí)上帝又笑了,不過如此嘛

基于統(tǒng)計(jì)的機(jī)器翻譯-新思路

   “MY GOD-“我勒個(gè)擦

    應(yīng)該沒人會(huì)認(rèn)為以上的翻譯會(huì)出自機(jī)器。

   1993年,IBM的一個(gè)工程師提出了利用統(tǒng)計(jì)方法去進(jìn)行機(jī)器翻譯的思路,1999年,約翰·霍普金斯大學(xué)的研究者實(shí)現(xiàn)了統(tǒng)計(jì)機(jī)器翻譯的基石。

既然是統(tǒng)計(jì)方法,就需要給出已知的翻譯成例以作為訓(xùn)練樣本,這便是一個(gè)龐大的平行語(yǔ)料庫(kù)。在現(xiàn)成的翻譯的句子中,有些詞可以被翻譯成多個(gè)詞,有些則完全不需要翻譯,這里一個(gè)句子中的每個(gè)詞語(yǔ)便有各種翻譯的概率,并且還有相對(duì)于平行文本句子中的位置的概率,于是這些都成了統(tǒng)計(jì)學(xué)意義上的參數(shù),機(jī)器本身并不需要知道詞的含義,但如果它知道這些參數(shù),再對(duì)于一個(gè)需要翻譯的句子,給出它各種翻譯和其相對(duì)位置的概率,然后挑選概率最高的作為輸出,得到了翻譯結(jié)果。從概率論的角度上看,其實(shí)便是求多種情況下條件概率最大值的問題。

下面四個(gè)例子,說明了這種翻譯的效果:


“我是機(jī)器人,顯然這句話習(xí)慣翻譯為I am a ROBOT。但貌似機(jī)器給出的結(jié)果缺少了謂語(yǔ),這是為何?加個(gè)逗號(hào)試試:

呵呵,是不是接近答案啦。這里第一個(gè)情況,機(jī)器將其識(shí)別為一個(gè)短語(yǔ),也就是當(dāng)成了一個(gè)整體,而不是句子,這個(gè)時(shí)候,參數(shù)估計(jì)中重要的位置參數(shù)便會(huì)丟失,于是機(jī)器機(jī)器將其當(dāng)短語(yǔ)識(shí)別,在平行預(yù)料庫(kù)中,只計(jì)算我是機(jī)器人這個(gè)短語(yǔ)的在平行語(yǔ)料庫(kù)中最大可能的翻譯。記得威爾史密斯那部經(jīng)典的關(guān)于人工智能的電影嗎?它就叫《I ROBOT》。

加了逗號(hào)以后,機(jī)器將其識(shí)別為一個(gè)分句,這時(shí)有個(gè)位置與翻譯概率兩者共同決定了最大可能的翻譯,命中了。那么,加個(gè)句號(hào)不就是一個(gè)完整的句子了嗎,試試:

這次是有謂語(yǔ),但是時(shí)態(tài)錯(cuò)了。為啥呢?機(jī)器肯定是在尋找了大量平行語(yǔ)料計(jì)算條件概率再給出了這個(gè)結(jié)果,而語(yǔ)料產(chǎn)生于人,在一個(gè)完整的句子中,人說自己是機(jī)器人,通常是一種虛擬語(yǔ)氣,一種情況是你在抱怨任務(wù)太多,希望自己是個(gè)機(jī)器人能夠短時(shí)間完成任務(wù),于是謂語(yǔ)是was而不是am,意在表達(dá)這種情況并非真實(shí),但有此意愿。所以如果是“我不是機(jī)器人”這句話,虛擬語(yǔ)氣就應(yīng)該沒有問題了,那么我們看看:


這下對(duì)了吧,人確實(shí)不是機(jī)器人嘛,在英語(yǔ)中就不會(huì)出現(xiàn)虛擬語(yǔ)氣的情況了。

從以上的四個(gè)例子,可以看出統(tǒng)計(jì)機(jī)器翻譯的特點(diǎn):精準(zhǔn)但是依賴于平行語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)太少,顯然翻譯容易出問題,但是如果語(yǔ)料庫(kù)太多,統(tǒng)計(jì)算法會(huì)對(duì)計(jì)算機(jī)的性能提出更強(qiáng)大的要求,而這種要求其實(shí)就是對(duì)于人工智能的要求。

此時(shí),上帝打了個(gè)噴嚏,額,我沒事,這個(gè)貌似有點(diǎn)靠譜,但是你們還是造不出巴別塔。

再造巴別塔-任重道遠(yuǎn)

   雖然統(tǒng)計(jì)機(jī)器翻譯表現(xiàn)出色,但是機(jī)器翻譯本身還很多問題,機(jī)器取代不了人類。中國(guó)數(shù)學(xué)家、語(yǔ)言學(xué)家周海中曾在論文《機(jī)器翻譯五十年》中指出:要提高機(jī)譯的譯文質(zhì)量,首先要解決的是語(yǔ)言本身問題而不是程序設(shè)計(jì)問題。也就是說,機(jī)器翻譯最終還是受制于人類對(duì)語(yǔ)言本身的了解,它到底是怎么產(chǎn)生的,大腦中是如何運(yùn)行的。。。路漫漫其修遠(yuǎn)兮啊,但還是要有信心,總有一日人類能夠重塑圣經(jīng),再造巴別塔!

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }