
大數(shù)據(jù)時代的網(wǎng)絡(luò)分析,如何全盤挖掘大數(shù)據(jù)
我們生活在一個互聯(lián)實體(entities)構(gòu)成的復(fù)雜世界中。人類涉足的所有領(lǐng)域,從生物學(xué)到醫(yī)學(xué)、經(jīng)濟(jì)學(xué)和氣候科學(xué),都充滿了大規(guī)模數(shù)據(jù)集。
這些數(shù)據(jù)集將實體(entities)模擬為節(jié)點、節(jié)點之間的連接被模擬為邊(edges),從不同且互補(bǔ)的角度描述著復(fù)雜的真實世界系統(tǒng)。這些網(wǎng)絡(luò)化數(shù)據(jù)是特定領(lǐng)域信息的新的豐富來源,不過,目前,大部分信息卻隱藏在這種復(fù)雜連接模式(wiring patterns)中。
首當(dāng)其沖的就是解碼這些模式,因為計算分析大型網(wǎng)絡(luò)通常會很棘手,以至于我們關(guān)于這個世界的許多疑問都無法得到準(zhǔn)確回答,即使我們擁有不受限制的計算機(jī)性能和時間[1]。因此,唯一的希望就是近似地回答這些問題(亦即啟發(fā)式地)并且證明在最糟糕的情況下,這個近似回答距離確切的未知答案有多遠(yuǎn)。
本期《科學(xué)》中, Benson 等人[2] 往這一方向邁出了重要的一步——提出了一種可升級( scalable)的啟發(fā)式框架:用于基于連接模式的實體(entities)分組,以及用發(fā)現(xiàn)的模式揭示出幾個真實世界網(wǎng)絡(luò)化系統(tǒng)的高位階組織原則。
摘要:網(wǎng)絡(luò)是理解和建模物理、生物、神經(jīng)科學(xué)、工程學(xué)和社會科學(xué)中復(fù)雜系統(tǒng)的基礎(chǔ)工具。許多網(wǎng)絡(luò)以展現(xiàn)出能夠在單個節(jié)點和邊的水平上被獲取的豐富、低階連接模式著稱。但是,大部分復(fù)雜網(wǎng)絡(luò)的高階組織——在小型網(wǎng)絡(luò)子圖(subgraph)水平上——在很大程度上仍然未知。我們開發(fā)出了一種通用框架(generalized framework),用于在高階連接模式基礎(chǔ)上聚類網(wǎng)絡(luò)。該框架為已獲聚類的最優(yōu)性提供了數(shù)學(xué)保證,并能擴(kuò)展到帶有數(shù)十億個邊的網(wǎng)絡(luò)。該框架也揭示了許多網(wǎng)絡(luò)的高階組織,包括神經(jīng)元網(wǎng)絡(luò)的信息傳播單元和交通運輸網(wǎng)絡(luò)的樞紐結(jié)構(gòu)。結(jié)果表明,這些網(wǎng)絡(luò)展現(xiàn)出了豐富的高階組織結(jié)構(gòu),該結(jié)構(gòu)可以在高階連接模式的基礎(chǔ)上通過聚類的方式揭露出來。
為了挖掘網(wǎng)絡(luò)化數(shù)據(jù)連接模式,揭示出功能組織,僅考慮簡單描述符號是不夠的,比如每個實體(亦即節(jié)點)和其他實體(亦即節(jié)點度,node degree)的互作用數(shù)量,因為在這種簡單描述符號層面,兩個網(wǎng)絡(luò)可能等同,但它們的連接結(jié)構(gòu)非常不同(見圖)。
相反,Benson 等人使用了叫做圖元 (graphlets, 例如三角形) 的高階描述符,它建立在小型子網(wǎng)絡(luò)基礎(chǔ)上,這些小型子網(wǎng)絡(luò)來自一個數(shù)據(jù)中的節(jié)點子集,這個節(jié)點子集包含了出現(xiàn)在數(shù)據(jù)中的所有交互作用[3] 。他們僅用少數(shù)幾個跨區(qū)域邊界的特定圖元實例,就鑒別出富含某個特定圖元類型實例的網(wǎng)絡(luò)區(qū)域。如果這種圖元類型是預(yù)先指定的,那么,這種方法就能發(fā)現(xiàn)通過這個圖元互連的節(jié)點, 它也幫助 Benson 等人將線蟲神經(jīng)元網(wǎng)絡(luò)(控制某類行動的網(wǎng)絡(luò))中的20個神經(jīng)元成功地組在一起。
該方法正是通過這種方式將局部連接模式 ( local wiring patterning)與由之強(qiáng)加的高階結(jié)構(gòu)模塊化結(jié)合起來的,揭示出網(wǎng)絡(luò)化數(shù)據(jù)中高階功能區(qū)域。
網(wǎng)絡(luò)結(jié)構(gòu)
下述四種網(wǎng)絡(luò)大小相同(節(jié)點和邊的數(shù)量也相等),每個網(wǎng)絡(luò)的每個節(jié)點度(與其他節(jié)點交互作用的數(shù)量)也相同,但是,每個網(wǎng)絡(luò)卻結(jié)構(gòu)各異。
這一研究結(jié)果的重要性在于:可用于大范圍的網(wǎng)絡(luò)化 RNA 以及被翻譯成蛋白質(zhì),它使用各種各樣的三維結(jié)構(gòu)來實現(xiàn)特定的細(xì)胞功能。分子互動會被不同的高通量生物技術(shù)捕獲,而且還可以用不同網(wǎng)絡(luò)類型加以模擬。對分子網(wǎng)絡(luò)的個體分析已經(jīng)揭示出:擁有相似功能的分子趨于聚集在一個網(wǎng)絡(luò)中并以相似的方式連接起來 [13] ,讓我們更好理解基因功能 [6] 以及細(xì)胞的分子組織 [7]并且促進(jìn)了療法(therapeutics)發(fā)展 [8-12]。
圖一:高階網(wǎng)絡(luò)結(jié)構(gòu)以及高階網(wǎng)絡(luò)聚簇框架。(A)高階結(jié)構(gòu)由網(wǎng)絡(luò)模體(network motifs)獲取。例如,圖為所有 13 種互連的三節(jié)點有方向模體。(B)基于模體 M7 的網(wǎng)絡(luò)的聚類。對于給定的模體 M,我們的架構(gòu)的目標(biāo)是找到能最小化模體傳導(dǎo)率(motif conductance)ΦM(S) 的節(jié)點的集合 S;模體傳導(dǎo)率的定義是模體切割(motif cut)(實心三角形切割)的數(shù)量與模體 S 或模體
(13)例子中節(jié)點的最小數(shù)量之比。本例中有一個模體切割。(C)高階網(wǎng)絡(luò)聚類框架。給定的一個相關(guān)的圖形和模體(本例中為 M7)后,該框架通過計數(shù)雙節(jié)點在該模體中共現(xiàn)(co-occur)的次數(shù)來構(gòu)成一個模體鄰接矩陣(motif adjacency matrix)(Wm)。然后再計算該模體鄰接矩陣的拉普拉斯變換(Laplacian transformation)的特征向量。由該特征向量的成分提供的節(jié)點排序 σ 產(chǎn)生了不斷變大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我們證明了帶有基于傳導(dǎo)率 ΦM(Sr) 的最小模體的集合 Sr 是接近最優(yōu)的高階聚類。
然而,就所研究現(xiàn)象而言,每種網(wǎng)絡(luò)類型提供的信息都是有限的。例如,一種疾病很少是單個變異基因或單個遭受破壞的分子相互作用所致,而是細(xì)胞內(nèi)、細(xì)胞間互動造成的多重擾動產(chǎn)物。
網(wǎng)絡(luò)醫(yī)學(xué) (network medicine) 將網(wǎng)絡(luò)分析和數(shù)據(jù)整合結(jié)合起來,挖掘補(bǔ)充數(shù)據(jù)中的財富,并揭示出貌似無關(guān)疾病之間的普遍分子機(jī)制 [8-11]。與之相反,患有看似相同疾病的病人,發(fā)病的分子機(jī)制可能不同,他們對治療的反應(yīng)也可能不同(例如:癌癥異質(zhì)性)[8-11]。因此,個性化醫(yī)療的目的在于基于單個病人基因和分子特征,為病人提供個性化療法,這可能涉及到根據(jù)不同病患分組,改變已知藥物用途,進(jìn)而緩解開發(fā)新藥所需成本和時間給制藥行業(yè)帶來的瓶頸 [11,12]。
對于這些尚處初期的領(lǐng)域來說,分析和整合網(wǎng)絡(luò)數(shù)據(jù)的方法將是基礎(chǔ),只有全盤挖掘所有可得基因、分子和臨床數(shù)據(jù) ,才有可能全面理解相關(guān)情況[11]。
圖二:秀麗隱桿線蟲神經(jīng)元網(wǎng)絡(luò)的高階聚簇 (A)四節(jié)點雙扇模體(The four-node bi-fan motif),在神經(jīng)網(wǎng)絡(luò)(1)中被過度表達(dá)。直觀上看,這個模體描述了從左邊節(jié)點向右邊節(jié)點傳遞合作繁殖信息的過程。(B)秀麗隱桿線蟲額葉神經(jīng)元網(wǎng)絡(luò)的高階聚簇以(A)中的模體為基礎(chǔ)。這個聚簇包含了作為信源的 3 個帶有多個外向連接的環(huán)狀運動神經(jīng)元(REML,-V,和 -R;青色),6 個作為目的地信息的帶有多個內(nèi)向連接的內(nèi)唇感覺神經(jīng)元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4個 作為中介的URA 運動神經(jīng)元(紫色)。這些 RME 神經(jīng)元已被提為這個神經(jīng)環(huán)的先導(dǎo),而 IL2 神經(jīng)元是已知的瞬眼調(diào)節(jié)器,同時這個高階聚簇會暴露它們的組織。這個聚簇也揭示了 RIH 是信息處理過程中的一個關(guān)鍵媒介。這個神經(jīng)元有來自 3 個 REM 神經(jīng)元的傳入鏈接,與 6 個IL2 神經(jīng)元中的 5 個相連的外向連接,和該聚簇中總數(shù)最大的連接,它連接了該聚簇中任何一個神經(jīng)元。(C)整個神經(jīng)網(wǎng)絡(luò)環(huán)境中的II-lustration 高階聚簇。節(jié)點位置在這些神經(jīng)元的真正二維空間嵌入的地方。大部分信息從左向右流動,而且我們看到 RMEV,-R,和 -L與 RIH 是作為右邊神經(jīng)元的信息源。
全面分析互連世界,需要概念以及方法論范式的轉(zhuǎn)換。
不要孤立分析單個數(shù)據(jù)來源,例如基因序列比對( aligning genetic sequences )(它已經(jīng)革新了我們對生物學(xué)的理解)[14],在單個框架中比對所有類型的數(shù)據(jù)——「數(shù)據(jù)比對(the data alignment)」才會帶來更為深入的洞見。
例如,一個細(xì)胞所有基因的和分子互動數(shù)據(jù),可以整合進(jìn)同一個計算框架中,而且我們需要研發(fā)出一些方法,在一個新的「細(xì)胞比對(the cell alignment)」范式中比對這些「整合細(xì)胞(integrated cells)」。
同樣,我們已經(jīng)分別研究過了世界經(jīng)濟(jì)系統(tǒng),包括貿(mào)易網(wǎng)絡(luò)、金融交易、投資等[3,5] 。但是,對財富起源、危機(jī)和經(jīng)濟(jì)復(fù)蘇的理解只能來自對比和整體分析所有層面的網(wǎng)絡(luò)化經(jīng)濟(jì)和地緣政治數(shù)據(jù)。同樣,氣候測量的結(jié)果也是通過不同網(wǎng)絡(luò)類型編碼跨地理區(qū)域的各種氣候元素獲得(例如:風(fēng)速、氣壓和溫度)之間的關(guān)系 [4],而且,全盤的數(shù)據(jù)對齊分析或許有助于解釋這種復(fù)雜動態(tài)系統(tǒng),并且更好預(yù)測人為改變帶來的影響。
可以抓住數(shù)據(jù)高階結(jié)構(gòu)復(fù)雜性的數(shù)學(xué)形式體系(Mathematical formalisms),連同從那些數(shù)學(xué)形式體系中計算和提取信息的算法[15],應(yīng)當(dāng)?shù)玫桨l(fā)展和應(yīng)用。將 Benson 等人 的框架擴(kuò)展到用于在這些整合和對齊的數(shù)據(jù)系統(tǒng)中發(fā)現(xiàn)高階結(jié)構(gòu),可能是未來的發(fā)展路向。
源于數(shù)據(jù)規(guī)模巨大、復(fù)雜、異質(zhì)、噪音以及不同時空尺度的計算問題,仍然需要加以解決。
圖三:加拿大和美國機(jī)場網(wǎng)絡(luò)的高階譜分析。(A)在我們的分析中使用的三種高階結(jié)構(gòu)。每一個模體。每一個模體都「掛靠」于藍(lán)色的節(jié)點 i 和 j,這意味著我們的框架只能尋找將藍(lán)色節(jié)點聚類在一起。特別地,該模體鄰接矩陣會根據(jù)第三個中間節(jié)點(綠色方塊)而為 (i,j) 邊增加權(quán)重。前兩個模體對應(yīng)于高度互連的城市,而最右邊的模體是非樞紐與非樞紐的連接。(B)美國人口最多的 50 個城市,每個城市分別對應(yīng)于網(wǎng)絡(luò)中的一個節(jié)點。邊厚度正比于模體鄰接矩陣中的權(quán)重 Wm。厚的黑色線表示較大權(quán)重對應(yīng)于流行的主線路徑。(C)由 Wm 的標(biāo)準(zhǔn)拉普拉斯的前兩個非平凡特征向量(nontrivial eigenvector)的它們的對應(yīng)成分提供的節(jié)點嵌入。其中標(biāo)注城市中有 8 個城市是美國最大的樞紐(綠色)、有 3 個是西海岸非樞紐(紅色)、還有 3 個是東海岸的非樞紐。主要的譜坐標(biāo)(spectral coordinate)(從左至右)說明了城市的樞紐程度,而第二個譜坐標(biāo)(從上至下)表示的是西到東的地理分布。(D)由標(biāo)準(zhǔn)的、基于邊的(非高階)標(biāo)準(zhǔn)拉普拉斯的前兩個非平凡特征向量中的對應(yīng)成分提供的節(jié)點嵌入。該方法沒有獲取由高階方法發(fā)現(xiàn)的樞紐和地理。比如,最大的樞紐亞特蘭大位于嵌入的中心,和非樞紐城市 Salina 緊鄰。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10