99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)時代的網(wǎng)絡(luò)分析,如何全盤挖掘大數(shù)據(jù)
大數(shù)據(jù)時代的網(wǎng)絡(luò)分析,如何全盤挖掘大數(shù)據(jù)
2016-10-20
收藏

大數(shù)據(jù)時代的網(wǎng)絡(luò)分析,如何全盤挖掘大數(shù)據(jù)

我們生活在一個互聯(lián)實體(entities)構(gòu)成的復(fù)雜世界中。人類涉足的所有領(lǐng)域,從生物學(xué)到醫(yī)學(xué)、經(jīng)濟(jì)學(xué)和氣候科學(xué),都充滿了大規(guī)模數(shù)據(jù)集。

這些數(shù)據(jù)集將實體(entities)模擬為節(jié)點、節(jié)點之間的連接被模擬為邊(edges),從不同且互補(bǔ)的角度描述著復(fù)雜的真實世界系統(tǒng)。這些網(wǎng)絡(luò)化數(shù)據(jù)是特定領(lǐng)域信息的新的豐富來源,不過,目前,大部分信息卻隱藏在這種復(fù)雜連接模式(wiring patterns)中。

首當(dāng)其沖的就是解碼這些模式,因為計算分析大型網(wǎng)絡(luò)通常會很棘手,以至于我們關(guān)于這個世界的許多疑問都無法得到準(zhǔn)確回答,即使我們擁有不受限制的計算機(jī)性能和時間[1]。因此,唯一的希望就是近似地回答這些問題(亦即啟發(fā)式地)并且證明在最糟糕的情況下,這個近似回答距離確切的未知答案有多遠(yuǎn)。

本期《科學(xué)》中,  Benson 等人[2] 往這一方向邁出了重要的一步——提出了一種可升級( scalable)的啟發(fā)式框架:用于基于連接模式的實體(entities)分組,以及用發(fā)現(xiàn)的模式揭示出幾個真實世界網(wǎng)絡(luò)化系統(tǒng)的高位階組織原則。

摘要:網(wǎng)絡(luò)是理解和建模物理、生物、神經(jīng)科學(xué)、工程學(xué)和社會科學(xué)中復(fù)雜系統(tǒng)的基礎(chǔ)工具。許多網(wǎng)絡(luò)以展現(xiàn)出能夠在單個節(jié)點和邊的水平上被獲取的豐富、低階連接模式著稱。但是,大部分復(fù)雜網(wǎng)絡(luò)的高階組織——在小型網(wǎng)絡(luò)子圖(subgraph)水平上——在很大程度上仍然未知。我們開發(fā)出了一種通用框架(generalized framework),用于在高階連接模式基礎(chǔ)上聚類網(wǎng)絡(luò)。該框架為已獲聚類的最優(yōu)性提供了數(shù)學(xué)保證,并能擴(kuò)展到帶有數(shù)十億個邊的網(wǎng)絡(luò)。該框架也揭示了許多網(wǎng)絡(luò)的高階組織,包括神經(jīng)元網(wǎng)絡(luò)的信息傳播單元和交通運輸網(wǎng)絡(luò)的樞紐結(jié)構(gòu)。結(jié)果表明,這些網(wǎng)絡(luò)展現(xiàn)出了豐富的高階組織結(jié)構(gòu),該結(jié)構(gòu)可以在高階連接模式的基礎(chǔ)上通過聚類的方式揭露出來。

為了挖掘網(wǎng)絡(luò)化數(shù)據(jù)連接模式,揭示出功能組織,僅考慮簡單描述符號是不夠的,比如每個實體(亦即節(jié)點)和其他實體(亦即節(jié)點度,node degree)的互作用數(shù)量,因為在這種簡單描述符號層面,兩個網(wǎng)絡(luò)可能等同,但它們的連接結(jié)構(gòu)非常不同(見圖)。

相反,Benson 等人使用了叫做圖元 (graphlets, 例如三角形) 的高階描述符,它建立在小型子網(wǎng)絡(luò)基礎(chǔ)上,這些小型子網(wǎng)絡(luò)來自一個數(shù)據(jù)中的節(jié)點子集,這個節(jié)點子集包含了出現(xiàn)在數(shù)據(jù)中的所有交互作用[3] 。他們僅用少數(shù)幾個跨區(qū)域邊界的特定圖元實例,就鑒別出富含某個特定圖元類型實例的網(wǎng)絡(luò)區(qū)域。如果這種圖元類型是預(yù)先指定的,那么,這種方法就能發(fā)現(xiàn)通過這個圖元互連的節(jié)點, 它也幫助 Benson 等人將線蟲神經(jīng)元網(wǎng)絡(luò)(控制某類行動的網(wǎng)絡(luò))中的20個神經(jīng)元成功地組在一起。

該方法正是通過這種方式將局部連接模式 ( local wiring patterning)與由之強(qiáng)加的高階結(jié)構(gòu)模塊化結(jié)合起來的,揭示出網(wǎng)絡(luò)化數(shù)據(jù)中高階功能區(qū)域。

網(wǎng)絡(luò)結(jié)構(gòu)

下述四種網(wǎng)絡(luò)大小相同(節(jié)點和邊的數(shù)量也相等),每個網(wǎng)絡(luò)的每個節(jié)點度(與其他節(jié)點交互作用的數(shù)量)也相同,但是,每個網(wǎng)絡(luò)卻結(jié)構(gòu)各異。

這一研究結(jié)果的重要性在于:可用于大范圍的網(wǎng)絡(luò)化 RNA 以及被翻譯成蛋白質(zhì),它使用各種各樣的三維結(jié)構(gòu)來實現(xiàn)特定的細(xì)胞功能。分子互動會被不同的高通量生物技術(shù)捕獲,而且還可以用不同網(wǎng)絡(luò)類型加以模擬。對分子網(wǎng)絡(luò)的個體分析已經(jīng)揭示出:擁有相似功能的分子趨于聚集在一個網(wǎng)絡(luò)中并以相似的方式連接起來 [13] ,讓我們更好理解基因功能 [6] 以及細(xì)胞的分子組織 [7]并且促進(jìn)了療法(therapeutics)發(fā)展 [8-12]。

圖一:高階網(wǎng)絡(luò)結(jié)構(gòu)以及高階網(wǎng)絡(luò)聚簇框架。(A)高階結(jié)構(gòu)由網(wǎng)絡(luò)模體(network motifs)獲取。例如,圖為所有 13 種互連的三節(jié)點有方向模體。(B)基于模體 M7 的網(wǎng)絡(luò)的聚類。對于給定的模體 M,我們的架構(gòu)的目標(biāo)是找到能最小化模體傳導(dǎo)率(motif conductance)ΦM(S) 的節(jié)點的集合 S;模體傳導(dǎo)率的定義是模體切割(motif cut)(實心三角形切割)的數(shù)量與模體 S 或模體

(13)例子中節(jié)點的最小數(shù)量之比。本例中有一個模體切割。(C)高階網(wǎng)絡(luò)聚類框架。給定的一個相關(guān)的圖形和模體(本例中為 M7)后,該框架通過計數(shù)雙節(jié)點在該模體中共現(xiàn)(co-occur)的次數(shù)來構(gòu)成一個模體鄰接矩陣(motif adjacency matrix)(Wm)。然后再計算該模體鄰接矩陣的拉普拉斯變換(Laplacian transformation)的特征向量。由該特征向量的成分提供的節(jié)點排序 σ 產(chǎn)生了不斷變大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我們證明了帶有基于傳導(dǎo)率 ΦM(Sr) 的最小模體的集合 Sr 是接近最優(yōu)的高階聚類。

然而,就所研究現(xiàn)象而言,每種網(wǎng)絡(luò)類型提供的信息都是有限的。例如,一種疾病很少是單個變異基因或單個遭受破壞的分子相互作用所致,而是細(xì)胞內(nèi)、細(xì)胞間互動造成的多重擾動產(chǎn)物。

網(wǎng)絡(luò)醫(yī)學(xué) (network medicine) 將網(wǎng)絡(luò)分析和數(shù)據(jù)整合結(jié)合起來,挖掘補(bǔ)充數(shù)據(jù)中的財富,并揭示出貌似無關(guān)疾病之間的普遍分子機(jī)制 [8-11]。與之相反,患有看似相同疾病的病人,發(fā)病的分子機(jī)制可能不同,他們對治療的反應(yīng)也可能不同(例如:癌癥異質(zhì)性)[8-11]。因此,個性化醫(yī)療的目的在于基于單個病人基因和分子特征,為病人提供個性化療法,這可能涉及到根據(jù)不同病患分組,改變已知藥物用途,進(jìn)而緩解開發(fā)新藥所需成本和時間給制藥行業(yè)帶來的瓶頸 [11,12]。

對于這些尚處初期的領(lǐng)域來說,分析和整合網(wǎng)絡(luò)數(shù)據(jù)的方法將是基礎(chǔ),只有全盤挖掘所有可得基因、分子和臨床數(shù)據(jù) ,才有可能全面理解相關(guān)情況[11]。

圖二:秀麗隱桿線蟲神經(jīng)元網(wǎng)絡(luò)的高階聚簇 (A)四節(jié)點雙扇模體(The four-node bi-fan motif),在神經(jīng)網(wǎng)絡(luò)(1)中被過度表達(dá)。直觀上看,這個模體描述了從左邊節(jié)點向右邊節(jié)點傳遞合作繁殖信息的過程。(B)秀麗隱桿線蟲額葉神經(jīng)元網(wǎng)絡(luò)的高階聚簇以(A)中的模體為基礎(chǔ)。這個聚簇包含了作為信源的 3 個帶有多個外向連接的環(huán)狀運動神經(jīng)元(REML,-V,和 -R;青色),6 個作為目的地信息的帶有多個內(nèi)向連接的內(nèi)唇感覺神經(jīng)元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4個 作為中介的URA 運動神經(jīng)元(紫色)。這些 RME 神經(jīng)元已被提為這個神經(jīng)環(huán)的先導(dǎo),而 IL2 神經(jīng)元是已知的瞬眼調(diào)節(jié)器,同時這個高階聚簇會暴露它們的組織。這個聚簇也揭示了 RIH 是信息處理過程中的一個關(guān)鍵媒介。這個神經(jīng)元有來自 3 個 REM 神經(jīng)元的傳入鏈接,與 6 個IL2 神經(jīng)元中的 5 個相連的外向連接,和該聚簇中總數(shù)最大的連接,它連接了該聚簇中任何一個神經(jīng)元。(C)整個神經(jīng)網(wǎng)絡(luò)環(huán)境中的II-lustration 高階聚簇。節(jié)點位置在這些神經(jīng)元的真正二維空間嵌入的地方。大部分信息從左向右流動,而且我們看到 RMEV,-R,和 -L與 RIH 是作為右邊神經(jīng)元的信息源。

全面分析互連世界,需要概念以及方法論范式的轉(zhuǎn)換。

不要孤立分析單個數(shù)據(jù)來源,例如基因序列比對( aligning genetic sequences )(它已經(jīng)革新了我們對生物學(xué)的理解)[14],在單個框架中比對所有類型的數(shù)據(jù)——「數(shù)據(jù)比對(the data alignment)」才會帶來更為深入的洞見。

例如,一個細(xì)胞所有基因的和分子互動數(shù)據(jù),可以整合進(jìn)同一個計算框架中,而且我們需要研發(fā)出一些方法,在一個新的「細(xì)胞比對(the cell alignment)」范式中比對這些「整合細(xì)胞(integrated cells)」。

同樣,我們已經(jīng)分別研究過了世界經(jīng)濟(jì)系統(tǒng),包括貿(mào)易網(wǎng)絡(luò)、金融交易、投資等[3,5] 。但是,對財富起源、危機(jī)和經(jīng)濟(jì)復(fù)蘇的理解只能來自對比和整體分析所有層面的網(wǎng)絡(luò)化經(jīng)濟(jì)和地緣政治數(shù)據(jù)。同樣,氣候測量的結(jié)果也是通過不同網(wǎng)絡(luò)類型編碼跨地理區(qū)域的各種氣候元素獲得(例如:風(fēng)速、氣壓和溫度)之間的關(guān)系 [4],而且,全盤的數(shù)據(jù)對齊分析或許有助于解釋這種復(fù)雜動態(tài)系統(tǒng),并且更好預(yù)測人為改變帶來的影響。

可以抓住數(shù)據(jù)高階結(jié)構(gòu)復(fù)雜性的數(shù)學(xué)形式體系(Mathematical formalisms),連同從那些數(shù)學(xué)形式體系中計算和提取信息的算法[15],應(yīng)當(dāng)?shù)玫桨l(fā)展和應(yīng)用。將 Benson 等人 的框架擴(kuò)展到用于在這些整合和對齊的數(shù)據(jù)系統(tǒng)中發(fā)現(xiàn)高階結(jié)構(gòu),可能是未來的發(fā)展路向。

源于數(shù)據(jù)規(guī)模巨大、復(fù)雜、異質(zhì)、噪音以及不同時空尺度的計算問題,仍然需要加以解決。

圖三:加拿大和美國機(jī)場網(wǎng)絡(luò)的高階譜分析。(A)在我們的分析中使用的三種高階結(jié)構(gòu)。每一個模體。每一個模體都「掛靠」于藍(lán)色的節(jié)點 i 和 j,這意味著我們的框架只能尋找將藍(lán)色節(jié)點聚類在一起。特別地,該模體鄰接矩陣會根據(jù)第三個中間節(jié)點(綠色方塊)而為 (i,j) 邊增加權(quán)重。前兩個模體對應(yīng)于高度互連的城市,而最右邊的模體是非樞紐與非樞紐的連接。(B)美國人口最多的 50 個城市,每個城市分別對應(yīng)于網(wǎng)絡(luò)中的一個節(jié)點。邊厚度正比于模體鄰接矩陣中的權(quán)重 Wm。厚的黑色線表示較大權(quán)重對應(yīng)于流行的主線路徑。(C)由 Wm 的標(biāo)準(zhǔn)拉普拉斯的前兩個非平凡特征向量(nontrivial eigenvector)的它們的對應(yīng)成分提供的節(jié)點嵌入。其中標(biāo)注城市中有 8 個城市是美國最大的樞紐(綠色)、有 3 個是西海岸非樞紐(紅色)、還有 3 個是東海岸的非樞紐。主要的譜坐標(biāo)(spectral coordinate)(從左至右)說明了城市的樞紐程度,而第二個譜坐標(biāo)(從上至下)表示的是西到東的地理分布。(D)由標(biāo)準(zhǔn)的、基于邊的(非高階)標(biāo)準(zhǔn)拉普拉斯的前兩個非平凡特征向量中的對應(yīng)成分提供的節(jié)點嵌入。該方法沒有獲取由高階方法發(fā)現(xiàn)的樞紐和地理。比如,最大的樞紐亞特蘭大位于嵌入的中心,和非樞紐城市 Salina 緊鄰。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }