99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀文本內(nèi)容分析在網(wǎng)絡(luò)大數(shù)據(jù)中研究那些方向及問題
文本內(nèi)容分析在網(wǎng)絡(luò)大數(shù)據(jù)中研究那些方向及問題
2016-02-05
收藏

文本內(nèi)容分析在網(wǎng)絡(luò)大數(shù)據(jù)中研究那些方向及問題

文本內(nèi)容分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。嘗試從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁(yè)排序?qū)W習(xí)3個(gè)子方向,探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果,最后指出未來大數(shù)據(jù)文本內(nèi)容分析的一些研究方向和問題。

1 引言

伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及以及用戶規(guī)模的爆發(fā)式增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)步入了“大數(shù)據(jù)”時(shí)代。網(wǎng)絡(luò)大數(shù)據(jù)的“大”,不僅僅體現(xiàn)在其體量巨大(大數(shù)據(jù)的起始計(jì)量單位至少是Petabyte、Exabyte或Zettabyte),而且還體現(xiàn)在其增長(zhǎng)異常迅猛(通常是指數(shù)級(jí)的速率),數(shù)據(jù)類型多樣(包括了文本、圖像、聲音、視頻等),數(shù)據(jù)質(zhì)量良莠不齊并且關(guān)聯(lián)關(guān)系復(fù)雜。同時(shí),網(wǎng)絡(luò)大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)就是其價(jià)值密度低,大數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù),存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式,如果缺乏有效的信息處理手段提取網(wǎng)絡(luò)大數(shù)據(jù)中潛在的價(jià)值,網(wǎng)絡(luò)大數(shù)據(jù)不僅不能成為一個(gè)價(jià)值“寶藏”,反倒會(huì)成為一個(gè)數(shù)據(jù)的“墳?zāi)埂薄?

文本內(nèi)容分析是網(wǎng)絡(luò)信息處理的關(guān)鍵技術(shù)。網(wǎng)絡(luò)大數(shù)據(jù)對(duì)于文本內(nèi)容分析而言是一把雙刃劍:一方面,網(wǎng)絡(luò)大數(shù)據(jù)提供了需要文本分析豐富的數(shù)據(jù)源,大規(guī)模的樣本資源可以更好地支持文本分析關(guān)鍵技術(shù)的發(fā)展;另一方面,網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜的內(nèi)在特征對(duì)傳統(tǒng)文本分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如,網(wǎng)絡(luò)大數(shù)據(jù)越來多地存在于電商、問答等私有化網(wǎng)絡(luò)或者深網(wǎng)中,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的獲取和存儲(chǔ)更加困難;數(shù)據(jù)龐大的規(guī)模、復(fù)雜的關(guān)聯(lián)關(guān)系,使得傳統(tǒng)的文本分析和挖掘技術(shù)在計(jì)算的時(shí)空復(fù)雜度上激增;另外,迅猛的數(shù)據(jù)增長(zhǎng)速率、巨大的數(shù)據(jù)體量也使得傳統(tǒng)的全量計(jì)算模式(依賴于全體樣本的計(jì)算模式)不再適用。本文從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁(yè)排序?qū)W習(xí)3個(gè)子方向探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果。

2 文本內(nèi)容分析關(guān)鍵技術(shù)

2.1 短文本主題建模

隨著Web2.0、社交媒體和移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,每個(gè)網(wǎng)民都成為了互聯(lián)網(wǎng)上信息的創(chuàng)造者與傳播者,促使網(wǎng)上文本信息爆炸式增長(zhǎng)。與此同時(shí),互聯(lián)網(wǎng)上的文本內(nèi)容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時(shí)通信、從新聞到評(píng)論等,一個(gè)顯著的特點(diǎn)就是這些文本信息的長(zhǎng)度越來越短。這是因?yàn)槎涛谋拘畔⒕帉懞?jiǎn)單隨意,發(fā)布更為便捷。同時(shí),短文本信息比長(zhǎng)文本更簡(jiǎn)約、緊湊,能節(jié)省其他用戶閱讀消息的時(shí)間和精力。短文本信息比傳統(tǒng)文本信息來源要廣得多,更新頻率也快得多,大大加速了互聯(lián)網(wǎng)上信息產(chǎn)生與傳播的速度。

海量的短文本數(shù)據(jù)中蘊(yùn)藏著大量有價(jià)值的信息,但也給現(xiàn)有文本語義分析技術(shù)帶來了新的挑戰(zhàn)。與長(zhǎng)文本相比,短文本信息內(nèi)部上下文信息缺乏。此外,普通用戶常常用語不規(guī)范,新詞、多義詞等比較普遍。因此,對(duì)一條短文本信息的理解要比長(zhǎng)文本要困難得多。在以往的長(zhǎng)文本語義分析領(lǐng)域,一種普遍的方法就是利用概率話題模型(如LDA[1]和PLSA[2])對(duì)文檔內(nèi)部的話題結(jié)構(gòu)進(jìn)行建模,然后利用統(tǒng)計(jì)推斷手段學(xué)習(xí)出文檔集合中潛在的話題以及話題結(jié)構(gòu)。這些模型的一個(gè)基本假設(shè)是文檔是話題的一個(gè)混合分布,其中每個(gè)詞來源于一個(gè)話題。當(dāng)文檔長(zhǎng)度較長(zhǎng)時(shí),可以較準(zhǔn)確地根據(jù)文檔中的詞推斷出文檔的話題屬性。然而,當(dāng)文檔很短(只有幾個(gè)或十幾個(gè)詞,甚至少于話題的個(gè)數(shù))時(shí),由于數(shù)據(jù)不足,難以準(zhǔn)確推斷出文檔中話題混合分布的參數(shù)以及每個(gè)詞的話題屬性,從而影響話題學(xué)習(xí)的效果。

為克服短文本信息的數(shù)據(jù)稀疏性,一種簡(jiǎn)單做法是利用外部數(shù)據(jù)(如Wikipedia、搜索結(jié)果)擴(kuò)充文檔的表示,再利用現(xiàn)有的長(zhǎng)文本語義建模工具處理。但這種方式的效果嚴(yán)重依賴于原短文本文檔與擴(kuò)充的外部數(shù)據(jù)的相關(guān)程度。對(duì)于一些實(shí)時(shí)性強(qiáng)的數(shù)據(jù)(如微博),要找到合適的外部數(shù)據(jù)源是很困難的。為此,很多人嘗試?yán)脙?nèi)部數(shù)據(jù)擴(kuò)充文檔的表示,如偽相關(guān)反饋、加入短語特征[3]、相關(guān)消息聚合[4]等。無論是利用外部數(shù)據(jù)擴(kuò)充,還是利用內(nèi)部數(shù)據(jù)擴(kuò)充,都面臨著擴(kuò)充數(shù)據(jù)選擇不當(dāng)帶來額外噪音的風(fēng)險(xiǎn)。另外,這兩種方法并沒有從模型上帶來任何改變,只是治標(biāo)不治本。另外,一些研究者[5,6]則提出一條短文本消息只包含一個(gè)話題,將短文本消息用單詞混合模型(mixture of unigrams)建模。該方式雖然可緩解參數(shù)估計(jì)時(shí)的數(shù)據(jù)稀疏性問題,但對(duì)短文本消息的建模過于簡(jiǎn)化?,F(xiàn)實(shí)情況下,一條短文本消息仍然可能包含多個(gè)話題,尤其是在話題粒度較細(xì)的時(shí)候。此時(shí),單詞混合模型無法區(qū)分。

由于短文本消息和長(zhǎng)文本文檔顯著不同,傳統(tǒng)面向長(zhǎng)文本的話題建模方法并不能簡(jiǎn)單地套用到短文本文檔上。為了更好地對(duì)短文本進(jìn)行語義建模,提出了一種新的話題建模方法——雙詞話題模型(biterm topic model,BTM)[7]。BTM和傳統(tǒng)基于文檔產(chǎn)生式建模的話題模型的最大區(qū)別是,它通過建模文檔集合中雙詞的產(chǎn)生來學(xué)習(xí)話題。這里,雙詞指的是在同一個(gè)上下文中共現(xiàn)的詞對(duì)。由于一條短文本消息很短,可以簡(jiǎn)單地認(rèn)為每條消息是一條上下文。比如在“短文本語義建模”中,可以抽取出3個(gè)雙詞:(“短文本”,“語義”)、(“短文本”,“建?!保ⅲā罢Z義”,“建?!保?。其直接體現(xiàn)了詞的共現(xiàn)關(guān)系,因此采用雙詞作為建模單元。直觀地講,兩個(gè)詞共現(xiàn)次數(shù)越多,其語義越相關(guān),也就越可能屬于同一話題。根據(jù)這一認(rèn)識(shí),假設(shè)每個(gè)雙詞由同一個(gè)話題產(chǎn)生,而話題從一個(gè)定義在整個(gè)語料集合上的話題混合分布產(chǎn)生。與LDA相比,BTM通過直接建模雙詞(即詞共現(xiàn)模式)來學(xué)習(xí)話題,從而避免短文本文檔過短導(dǎo)致的文檔建模困難問題。二者的圖模型表示如圖1所示。實(shí)驗(yàn)結(jié)果表明,BTM在短文本上的效果相比LDA等傳統(tǒng)方法有明顯提升,而且在長(zhǎng)文本上的效果也不輸于LDA。

除了長(zhǎng)度短之外,互聯(lián)網(wǎng)上的短文本大數(shù)據(jù)還具有規(guī)模大、更新快的特點(diǎn)。為此,提出了BTM的兩種在線學(xué)習(xí)算法:在線BTM(oBTM)和增量BTM(iBTM)[8]。

這兩種算法的主要思想是用最近時(shí)間段內(nèi)接收到的數(shù)據(jù)來持續(xù)更新模型,而不必反復(fù)計(jì)算較久遠(yuǎn)的歷史數(shù)據(jù)。這兩種算法不僅可以用來處理大規(guī)模流式短文本數(shù)據(jù),其學(xué)到的模型還可以即時(shí)反映話題的動(dòng)態(tài)變化,比較適合用于大規(guī)模流式短文本語義建模。在微博等互聯(lián)網(wǎng)應(yīng)用中,短文本信息還具備很強(qiáng)的時(shí)效性,因此其潛在的話題結(jié)構(gòu)也會(huì)劇烈變化。尤其受一些突發(fā)和熱點(diǎn)事件、活動(dòng)的影響,每天都可能涌現(xiàn)出大量的突發(fā)話題。為了對(duì)微博中突發(fā)話題建模,在BTM的基礎(chǔ)上提出了一種突發(fā)雙詞話題模型(BBTM或Bursty BTM)[9]。BBTM的做法是利用雙詞的突發(fā)性來指導(dǎo)突發(fā)話題的建模。原因是雙詞的突發(fā)性可以根據(jù)其時(shí)序頻率估算出來,突發(fā)性越強(qiáng)、共現(xiàn)次數(shù)越多的雙詞,越可能來源于某個(gè)突發(fā)話題。基于這一思想,BBTM首先將文檔集合中的話題分為突發(fā)和非突發(fā)兩類,然后將雙詞的突發(fā)性作為一個(gè)雙詞話題類別判定的先驗(yàn)。在實(shí)驗(yàn)驗(yàn)證過程中,發(fā)現(xiàn)BBTM識(shí)別出來的突發(fā)話題的準(zhǔn)確性和可讀性都顯著優(yōu)于現(xiàn)有的啟發(fā)式方法。

盡管在短文本語義建模方向取得了一些進(jìn)展,但和人對(duì)短文本信息的認(rèn)知能力相比,目前的研究仍然非常初步。在該方向上,筆者認(rèn)為目前值得深入探索的一些研究點(diǎn)如下。

(1)多源異質(zhì)數(shù)據(jù)下的短文本語義建模

在大數(shù)據(jù)時(shí)代的背景下,如何廣泛利用其他數(shù)據(jù)源中的知識(shí)(如Wikipedia、開放網(wǎng)頁(yè)、知識(shí)庫(kù)等),進(jìn)一步提高計(jì)算機(jī)短文本的理解與處理能力,是進(jìn)一步提升短文本語義建模的必經(jīng)之路。

(2)復(fù)雜結(jié)構(gòu)語義建模

目前研究的話題模型結(jié)構(gòu)都比較簡(jiǎn)單,只有一層潛在語義結(jié)構(gòu),話題的數(shù)目也很有限。這種簡(jiǎn)單結(jié)構(gòu)的話題模型只能大概反映文本中的語義,難以準(zhǔn)確、全面地描述文本內(nèi)容。真實(shí)文本數(shù)據(jù)中的語義結(jié)構(gòu)很復(fù)雜,可以考慮采用層次、圖狀等結(jié)構(gòu)提升模型的表達(dá)能力。

(3)融合上下文特征的話題建模

目前的語義建模方法大多仍然局限在利用詞共現(xiàn)信息上。在真實(shí)的應(yīng)用環(huán)境中,短文本消息還包含大量的上下文信息(如詞性、詞序等內(nèi)源特征)以及作者、地點(diǎn)、人物關(guān)系、時(shí)間等外源特征。豐富的上下文特征對(duì)解決短文本內(nèi)容稀疏性會(huì)有很大幫助。

(4)與應(yīng)用結(jié)合

對(duì)短文本語義建模能力的提升最終還需要落地于具體應(yīng)用中。要最大限度地提升應(yīng)用效果,需要研究與具體應(yīng)用相關(guān)的語義建模方法。

2.2 單詞表示學(xué)習(xí)

單詞表示一直是人工智能、自然語言處理、信息檢索等領(lǐng)域的一個(gè)基本核心問題。

自然語言處理等相關(guān)領(lǐng)域最常用的單詞表示方法是one-hot表達(dá),將單詞表示為一個(gè)高維向量,這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。這種one-hot表達(dá)如果采用稀疏方式存儲(chǔ),非常簡(jiǎn)潔、高效,配合上最大熵、SVM、CRF等算法,已經(jīng)很好地完成了NLP(natural language processing,自然語言處理)領(lǐng)域的各種主流任務(wù)。

但是,這種表達(dá)有著根本性的缺陷,其假設(shè)所有詞都是獨(dú)立無關(guān)的,拋棄了單詞之間的相關(guān)性。這意味著,即使是兩個(gè)同義詞,在此表達(dá)下,它們的相似度也是0,這顯然是不合理的。同時(shí),也因?yàn)槊總€(gè)單詞都是一個(gè)孤立的離散單元,在許多實(shí)際問題中會(huì)遇到維度災(zāi)難問題。例如語言模型中,對(duì)于一個(gè)詞匯集合為100 000的模型,即使只使用二元組,其可能的組合情況便可以達(dá)到100億種。這樣就面臨嚴(yán)重的稀疏問題,傳統(tǒng)的語言模型必須使用各種復(fù)雜的平滑技術(shù)來估計(jì)那些沒有在語料中出現(xiàn)的組合的概率。

為解決語言模型中的維度災(zāi)難和稀疏問題,Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語言模型[10]。此模型將每個(gè)單詞表示為一個(gè)連續(xù)的低維稠密實(shí)數(shù)向量,這樣得到的語言模型自帶平滑,無須傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。這樣的連續(xù)低維稠密實(shí)數(shù)向量叫做分布式表達(dá)(distributed representation),最早由Hinton提出[7],有別于傳統(tǒng)語義網(wǎng)絡(luò)中用一個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)概念的局部表達(dá)(local representation)的方式。而其真正意義上流行開來,始于Bengio在語言模型上取得的成功?,F(xiàn)在,單詞的分布式表達(dá)已經(jīng)廣泛應(yīng)用于自然語言處理的各個(gè)方面,如機(jī)器翻譯、情感分析和詞性標(biāo)注等。

使用語言模型來學(xué)習(xí)單詞表達(dá)涉及在給定前文下預(yù)測(cè)下一個(gè)單詞出現(xiàn)的概率,因此需要在整個(gè)詞匯集合中進(jìn)行歸一化操作,這是非常耗時(shí)的一個(gè)操作。而當(dāng)年Bengio的神經(jīng)網(wǎng)絡(luò)語言模型在今天看來并不很大的語料上訓(xùn)練了4個(gè)月之久,即使后來的C&W的工作,也花了兩個(gè)月時(shí)間才得到一份單詞的表達(dá)。這在更大的數(shù)據(jù)上幾乎是不可忍受的。早期的單詞分布式表達(dá)工作主要集中在如何加速訓(xùn)練上面。

代表性工作有Bengio等人2005年提出的層次神經(jīng)網(wǎng)絡(luò)模型,輸出端不再是一個(gè)平坦的softmax層,而是一個(gè)樹狀輸出,利用WordNet將一個(gè)多項(xiàng)分布分解為一串伯努利分布來優(yōu)化[11]。AndriyMnih和Geoffrey Hinton提出Log-Bilinear模型,去掉了網(wǎng)絡(luò)中隱層的非線性,在此基礎(chǔ)上又提出hierarchical log-bilinear模型,同樣也是將模型的輸出改為層級(jí)輸出,從而加速模型的訓(xùn)練,并且效果也有一定的提升[12,13]。此后,Mnih將噪聲對(duì)比估計(jì)(noise contrastive estimation,NCE)用于近似優(yōu)化神經(jīng)網(wǎng)絡(luò)語言模型中的sofmax目標(biāo)函數(shù)[14]。而在這方面走得最遠(yuǎn)的當(dāng)屬目前最受關(guān)注的Mikolov等人的工作——Word2Vec。Mikolov在循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的工作中發(fā)現(xiàn),將單詞的表達(dá)學(xué)習(xí)與語言模型的學(xué)習(xí)分離開來,可以獲得很好的結(jié)果。于是提出了continuous bag-of-words(CBOW)和skip-gram(SG)兩種單詞表達(dá)學(xué)習(xí)模型[15]。這兩種模型的目標(biāo)不再是學(xué)習(xí)語言模型,而是直接利用自然語言處理中的分布式假設(shè)(distributional hypothesis)來學(xué)習(xí)單詞表達(dá)。這個(gè)假設(shè)認(rèn)為一個(gè)單詞的語義由其周圍的上下文決定,因此出現(xiàn)在相似上下文中的詞,其含義也相似。CBOW模型利用上下文單詞的表達(dá),直接預(yù)測(cè)當(dāng)前詞的表達(dá);而SG模型則是使用當(dāng)前詞預(yù)測(cè)上下文中的每一個(gè)詞。這兩種模型都可以使用哈夫曼樹或者Negative sampling加速優(yōu)化。

單詞表達(dá)學(xué)習(xí)算法大體都是基于一個(gè)同樣的假設(shè)——分布式假設(shè)。其假設(shè)一個(gè)單詞的語義由其周圍的上下文決定。由于單詞之間存在橫向(syntagmatic)和縱向(paradigmatic)兩種關(guān)系,如圖2所示。其中,橫向關(guān)系主要關(guān)注的是詞與詞之間在上下文中的共現(xiàn)關(guān)系,是一種組合性關(guān)系;而縱向關(guān)系則關(guān)注的是詞與詞之間具有相似上下文的關(guān)系,是一種替代性關(guān)系。根據(jù)所使用的分布信息的不同,單詞表達(dá)學(xué)習(xí)方法就可以分為兩大類:基于橫向關(guān)系和基于縱向關(guān)系。現(xiàn)有模型都只單獨(dú)考慮了一種關(guān)系。如隱式語義索引(latent semantic indexing,LSI),假設(shè)在文檔中共現(xiàn)的單詞具有相似的語義,其利用了橫向關(guān)系;而Word2Vec這類方法認(rèn)為,如果兩個(gè)單詞其周圍上下文相似,則其語義相似,其利用了縱向關(guān)系。

如圖所示,如果僅僅使用橫向關(guān)系,不能得到wolf和tiger相似,這并不合理;另一方面,如果只是用縱向關(guān)系,則wolf和fierce也不相似。可見,單獨(dú)使用任一關(guān)系,都不能很好地捕捉單詞間的關(guān)聯(lián)。在ACL2015的工作[16]提出了兩種新的單詞表達(dá)學(xué)習(xí)模型(如圖3所示),有別于現(xiàn)有模型只建模單詞間的橫向關(guān)系或縱向關(guān)系,以并列(PDC模型)或?qū)哟危℉DC模型)的方式同時(shí)建模這兩種關(guān)系,以得到更好的單詞表達(dá)。PDC模型和HDC模型對(duì)應(yīng)地?cái)U(kuò)展了Word2Vec中CBOW和HDC模型,在其基礎(chǔ)上,利用文檔表達(dá)來預(yù)測(cè)文檔中出現(xiàn)的單詞,以捕捉單詞間的橫向關(guān)系。

在單詞的類似與相似度任務(wù)上,這兩個(gè)模型均取得了state-of-the-art結(jié)果。

分布式表達(dá)的假設(shè)自身也有不足之處,比如不能很好地處理反義詞情形。因?yàn)榛榉戳x詞的兩個(gè)詞,經(jīng)常出現(xiàn)在同樣的上下文中,所以往往反義詞之間的相似度反而高于其他近義詞。針對(duì)此問題,主流思路都是利用外部的知識(shí)庫(kù)來輔助單詞的表達(dá)學(xué)習(xí)。這類工作的思路大體類似,都是利用外部知識(shí)庫(kù)如Wikipedia、WordNet約束單詞表達(dá)的學(xué)習(xí)過程,比如讓更新同義詞表達(dá)、限制反義詞表達(dá)等。此外,分布式表達(dá)的假設(shè)也不能很好地處理那些出現(xiàn)次數(shù)很少的單詞。因?yàn)檫@些單詞的上下文信息太少,不足以學(xué)到一個(gè)很好的表達(dá)。比較直接的辦法就是直接利用語素信息來改善單詞的表達(dá),如果兩個(gè)單詞具有相同的詞根,則其語義相似。

另外,目前單詞的表達(dá)學(xué)習(xí)主要還是無監(jiān)督的學(xué)習(xí)。因此,評(píng)價(jià)更多地集中在對(duì)單詞本身的語義表達(dá)性能,如各種word similarity和word analogy任務(wù)。然而,這些任務(wù)并不能反映單詞表達(dá)在真實(shí)的自然語言處理或者信息檢索任務(wù)中的性能,所以更應(yīng)該使用真實(shí)的任務(wù)作為實(shí)驗(yàn)。但這樣帶來的一個(gè)問題就是前端表達(dá)學(xué)習(xí)作為無監(jiān)督學(xué)習(xí),與后端的具體任務(wù)是脫節(jié)的。這也導(dǎo)致許多研究反映,雖然不同的單詞學(xué)習(xí)模型在單詞表達(dá)任務(wù)上可能性能差異很大,但是在具體實(shí)際任務(wù)中并沒有顯著差異。但如果直接根據(jù)任務(wù)設(shè)計(jì)有監(jiān)督的單詞學(xué)習(xí)模型,又會(huì)面臨可用的標(biāo)注數(shù)據(jù)太少的問題。一種可行的方案可能是先利用大規(guī)模數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),得到初始的單詞表達(dá),然后根據(jù)具體的監(jiān)督任務(wù)調(diào)整單詞表達(dá),以期望實(shí)現(xiàn)更好的應(yīng)用性能。

2.3 網(wǎng)頁(yè)排序?qū)W習(xí)

網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們?nèi)粘I钪械闹匾ぞ?,在搜索引擎的各個(gè)組成部分中,排序模型直接決定了人們看到的搜索結(jié)果,因此這種模型對(duì)于搜索引擎的性能起著至關(guān)重要的作用。

在信息檢索發(fā)展的歷史上,人們提出了很多排序模型,如進(jìn)行相關(guān)性排序的BM25模型[17]和語言模型[18]以及進(jìn)行搜索結(jié)果多樣化的MMR[19]模型等。這些模型對(duì)推動(dòng)搜索技術(shù)發(fā)展起到了一定作用,但是也存在一些問題:有的模型建立在人們對(duì)搜索問題的主觀理解之上,需要根據(jù)經(jīng)驗(yàn)人為設(shè)定模型參數(shù);還有一些模型雖然可以從大量網(wǎng)頁(yè)中學(xué)習(xí),不斷調(diào)整參數(shù),但無法利用用戶的反饋信息對(duì)模型參數(shù)進(jìn)行優(yōu)化。由于用戶提交不同的查詢?cè)~或者不同用戶提交相同的查詢?cè)~都有可能代表不同的信息需求,因此僅從研究者的主觀理解或者僅從網(wǎng)頁(yè)數(shù)據(jù)中學(xué)習(xí)排序模型,都無法很好地解決復(fù)雜的網(wǎng)絡(luò)搜索問題。在這樣的背景下,近年來研究人員開始嘗試使用有監(jiān)督機(jī)器學(xué)習(xí)方法,即從用戶標(biāo)注或者反饋中學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,稱為排序?qū)W習(xí)(learning to rank)[20]。

為了學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,需要一個(gè)訓(xùn)練數(shù)據(jù)集。該集合包含隨機(jī)抽取的查詢?cè)~、與查詢?cè)~有關(guān)的網(wǎng)頁(yè)以及這些網(wǎng)頁(yè)的標(biāo)注。這些標(biāo)注可能是由用戶顯式提供的絕對(duì)信息,如一個(gè)網(wǎng)頁(yè)和查詢?cè)~是非常相關(guān)、相關(guān)還是不相關(guān)等;也可能是從搜索引擎的用戶行為中挖掘出來的相對(duì)信息,如某個(gè)網(wǎng)頁(yè)是否比另外一個(gè)網(wǎng)頁(yè)更加相關(guān)。為了從這些標(biāo)注數(shù)據(jù)中學(xué)到最優(yōu)的排序模型,通常需要定義3個(gè)部分:一是表征網(wǎng)頁(yè)信息的特征向量(如詞頻、頁(yè)面分級(jí)(PageRank)等)和網(wǎng)頁(yè)間關(guān)系的特征向量(如網(wǎng)頁(yè)相似度等);二是模型的基本形式(如線性、非線性等);三是用來控制學(xué)習(xí)過程的損失函數(shù)(它衡量了當(dāng)前模型的排序結(jié)果和標(biāo)注信息之間的差別)。極小化損失函數(shù)可以得到與標(biāo)注數(shù)據(jù)最吻合的模型參數(shù)。經(jīng)過優(yōu)化的模型將用于回答新的查詢?cè)~。給定新的查詢?cè)~,首先通過倒排表找到包含該查詢?cè)~的網(wǎng)頁(yè),然后為每個(gè)網(wǎng)頁(yè)提取特征向量,并將排序模型應(yīng)用到這些特征向量上,從而給每個(gè)網(wǎng)頁(yè)輸出一個(gè)分?jǐn)?shù),最后將網(wǎng)頁(yè)按照分?jǐn)?shù)的降序進(jìn)行排列并返回給用戶。

目前針對(duì)相關(guān)性的排序?qū)W習(xí)算法效果已經(jīng)做得很好,部分算法甚至還應(yīng)用到了搜索引擎的部分模塊中。然而一個(gè)好的排序不僅依賴于相關(guān)性,多樣化也是一個(gè)重要考慮。其目標(biāo)在于在排序結(jié)果的頂部盡量多地展現(xiàn)不同子話題的網(wǎng)頁(yè),因此在排序的同時(shí)需要考慮網(wǎng)頁(yè)間的相似度。然而,這種解決方案的難點(diǎn)在于傳統(tǒng)的排序算法都以查詢和單個(gè)文檔作為輸入,計(jì)算查詢—文檔相關(guān)性很難將文檔間的關(guān)系融入排序模型內(nèi)。

為了解決上述問題,有的研究者們直接利用結(jié)構(gòu)化支持向量機(jī)直接優(yōu)化多樣化排序評(píng)價(jià)準(zhǔn)則[21],樂(Yue)等[22]也利用結(jié)構(gòu)化支持向量機(jī)尋找最佳文檔子集。然而,由于上述算法沒有對(duì)排序模型進(jìn)行本質(zhì)上的改變,模型仍然難以勝任多樣化排序任務(wù)。

朱(Zhu)等人[23]提出了關(guān)系排序?qū)W習(xí)模型R-LTR,其基本思想是:利用傳統(tǒng)的搜索結(jié)果多樣化模型MMR的思想,使用序列文檔選擇的方式構(gòu)造文檔排序,即從序列的頂部開始,依次選擇排在每一個(gè)位置上的文檔。在每一次進(jìn)行文檔選擇時(shí),考慮查詢—文檔的相關(guān)性和當(dāng)前文檔與已選擇文檔間的相似性,如圖4所示。

因此,R-LTR模型的參數(shù)分成兩個(gè)部分:第一部分為相關(guān)性參數(shù),其對(duì)應(yīng)的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等;第二部分為文檔關(guān)系參數(shù),其對(duì)應(yīng)的特征描述了文檔—文檔之間的關(guān)系,包括文檔在話題、詞等級(jí)別的相似性等。在訓(xùn)練過程中,R-LTR通過最大化似然的方式進(jìn)行參數(shù)估計(jì)。在TREC標(biāo)注數(shù)據(jù)集合上的測(cè)試表明,在搜索結(jié)果多樣化的任務(wù)上,R-LTR能夠超過傳統(tǒng)的排序?qū)W習(xí)模型,取得了顯著的效果提升。

夏(Xia)等人[24]針對(duì)R-LTR算法只利用了“正例”排序(如α-NDCG=1的最佳排序)進(jìn)行訓(xùn)練的問題,提出了PAMM算法,其主要思想是:同時(shí)利用“正例”排序和“負(fù)例”排序進(jìn)行訓(xùn)練;在排序過程中直接優(yōu)化多樣化排序評(píng)價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,上述改進(jìn)方法進(jìn)一步改善了搜索結(jié)果多樣化的排序效果,且使得算法具有優(yōu)化制定的評(píng)價(jià)準(zhǔn)則的能力。

盡管上述各項(xiàng)工作取得了一定的成功,但是由于搜索結(jié)果多樣化任務(wù)本身的復(fù)雜性,且評(píng)價(jià)準(zhǔn)則本身不連續(xù)、不可導(dǎo),使得直接對(duì)其進(jìn)行優(yōu)化仍然存在很多困難。相關(guān)的學(xué)習(xí)算法可能無法收斂或者很容易陷入局部極值點(diǎn)??傮w上講,這個(gè)方向還面臨很多挑戰(zhàn),需要不斷探索。另外,是否能夠利用深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)多樣性排序的特征和樣本之間的依賴關(guān)系也是一個(gè)非常有前景的方向。

3 結(jié)束語

綜上所述,內(nèi)容分析成為理解網(wǎng)絡(luò)大數(shù)據(jù)的重要手段。其中,短文本主題建模、單詞表達(dá)學(xué)習(xí)和多樣性排序?qū)W習(xí)是網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)容分析的熱點(diǎn)問題。隨著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展,這些方向還存在很多值得探討的科學(xué)問題,例如多源異構(gòu)數(shù)據(jù)的主題建模、如何有效利用監(jiān)督信息得到特定主題的單詞表達(dá)以及如何使用深度學(xué)習(xí)的方法來自動(dòng)學(xué)習(xí)多樣性的特征等。這些問題的解決有助于更好地理解和挖掘網(wǎng)絡(luò)大數(shù)據(jù),從而達(dá)到內(nèi)容分析的目的,為精準(zhǔn)檢索、推薦等應(yīng)用提供支持。

參考文獻(xiàn)

[1] Hofmann T. Probabilistic latent semanticanalysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

[3] Metzler D, Dumais S, Meek C. Similarity measuresfor short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

[4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics,Washington DC, USA, 2010: 80~88

[5] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and traditional media using topic models. Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

[6] Lakkaraju H, Bhattacharya I, Bhattacharyya C.Dynamic multi-relational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

[7] Yan X H, Guo J F, Lan Y Y, et al. A biterm topicmodel for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

[8] Cheng X Q, Yan X H, Lan Y Y, et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering,2014, 26(12): 2928~2941

[9] Yan X H, Guo J F, Lan Y Y, et al. Aprobabilistic model for bursty topic discovery in microblogs. Proceedings ofthe 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

[10] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research,2003, 3: 1137~1155

[11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshopon Artificial Intelligence and Statistics, Barbados, 2005

[12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, NY, USA, 2007: 641~648

[13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

[14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation. Proceedings of the 27rd Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada,USA, 2013

[15] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

[16] Sun F, Guo J F, Lan Y Y, et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations.Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

[17] Robertson S E. Overview of the okapi projects.Journal of Documentation, 1997, 53(1): 3~7

[18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval.Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

[19] Carbonell J, Goldstein J. The use of mmr,diversity-based reranking for reordering documents and producing summaries.Proceedings of the 21st Annual International ACM SIGIR Conference on Research& Development on Information Retrieval, Melbourne, Australia, 1998: 335~336

[20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

[21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

[22] Yue Y, Joachims T. Predicting diverse subsetsusing structural svms. Proceedings of the 25th ICML, Helsinki, Finland,2008:1224~1231

[23] Zhu Y, Lan Y, Guo J, et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast,QLD, Australia, 2014: 293~302

[24] Xia L, Xu J, Lan Y Y, et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures.Proceedings of the 38th Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, Santiago, Chile, 2015

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }