
大數(shù)據(jù)時代的網絡分析,如何全盤挖掘大數(shù)據(jù)
我們生活在一個互聯(lián)實體(entities)構成的復雜世界中。人類涉足的所有領域,從生物學到醫(yī)學、經濟學和氣候科學,都充滿了大規(guī)模數(shù)據(jù)集。
這些數(shù)據(jù)集將實體(entities)模擬為節(jié)點、節(jié)點之間的連接被模擬為邊(edges),從不同且互補的角度描述著復雜的真實世界系統(tǒng)。這些網絡化數(shù)據(jù)是特定領域信息的新的豐富來源,不過,目前,大部分信息卻隱藏在這種復雜連接模式(wiring patterns)中。
首當其沖的就是解碼這些模式,因為計算分析大型網絡通常會很棘手,以至于我們關于這個世界的許多疑問都無法得到準確回答,即使我們擁有不受限制的計算機性能和時間[1]。因此,唯一的希望就是近似地回答這些問題(亦即啟發(fā)式地)并且證明在最糟糕的情況下,這個近似回答距離確切的未知答案有多遠。
本期《科學》中, Benson 等人[2] 往這一方向邁出了重要的一步——提出了一種可升級( scalable)的啟發(fā)式框架:用于基于連接模式的實體(entities)分組,以及用發(fā)現(xiàn)的模式揭示出幾個真實世界網絡化系統(tǒng)的高位階組織原則。
摘要:網絡是理解和建模物理、生物、神經科學、工程學和社會科學中復雜系統(tǒng)的基礎工具。許多網絡以展現(xiàn)出能夠在單個節(jié)點和邊的水平上被獲取的豐富、低階連接模式著稱。但是,大部分復雜網絡的高階組織——在小型網絡子圖(subgraph)水平上——在很大程度上仍然未知。我們開發(fā)出了一種通用框架(generalized framework),用于在高階連接模式基礎上聚類網絡。該框架為已獲聚類的最優(yōu)性提供了數(shù)學保證,并能擴展到帶有數(shù)十億個邊的網絡。該框架也揭示了許多網絡的高階組織,包括神經元網絡的信息傳播單元和交通運輸網絡的樞紐結構。結果表明,這些網絡展現(xiàn)出了豐富的高階組織結構,該結構可以在高階連接模式的基礎上通過聚類的方式揭露出來。
為了挖掘網絡化數(shù)據(jù)連接模式,揭示出功能組織,僅考慮簡單描述符號是不夠的,比如每個實體(亦即節(jié)點)和其他實體(亦即節(jié)點度,node degree)的互作用數(shù)量,因為在這種簡單描述符號層面,兩個網絡可能等同,但它們的連接結構非常不同(見圖)。
相反,Benson 等人使用了叫做圖元 (graphlets, 例如三角形) 的高階描述符,它建立在小型子網絡基礎上,這些小型子網絡來自一個數(shù)據(jù)中的節(jié)點子集,這個節(jié)點子集包含了出現(xiàn)在數(shù)據(jù)中的所有交互作用[3] 。他們僅用少數(shù)幾個跨區(qū)域邊界的特定圖元實例,就鑒別出富含某個特定圖元類型實例的網絡區(qū)域。如果這種圖元類型是預先指定的,那么,這種方法就能發(fā)現(xiàn)通過這個圖元互連的節(jié)點, 它也幫助 Benson 等人將線蟲神經元網絡(控制某類行動的網絡)中的20個神經元成功地組在一起。
該方法正是通過這種方式將局部連接模式 ( local wiring patterning)與由之強加的高階結構模塊化結合起來的,揭示出網絡化數(shù)據(jù)中高階功能區(qū)域。
網絡結構
下述四種網絡大小相同(節(jié)點和邊的數(shù)量也相等),每個網絡的每個節(jié)點度(與其他節(jié)點交互作用的數(shù)量)也相同,但是,每個網絡卻結構各異。
這一研究結果的重要性在于:可用于大范圍的網絡化 RNA 以及被翻譯成蛋白質,它使用各種各樣的三維結構來實現(xiàn)特定的細胞功能。分子互動會被不同的高通量生物技術捕獲,而且還可以用不同網絡類型加以模擬。對分子網絡的個體分析已經揭示出:擁有相似功能的分子趨于聚集在一個網絡中并以相似的方式連接起來 [13] ,讓我們更好理解基因功能 [6] 以及細胞的分子組織 [7]并且促進了療法(therapeutics)發(fā)展 [8-12]。
圖一:高階網絡結構以及高階網絡聚簇框架。(A)高階結構由網絡模體(network motifs)獲取。例如,圖為所有 13 種互連的三節(jié)點有方向模體。(B)基于模體 M7 的網絡的聚類。對于給定的模體 M,我們的架構的目標是找到能最小化模體傳導率(motif conductance)ΦM(S) 的節(jié)點的集合 S;模體傳導率的定義是模體切割(motif cut)(實心三角形切割)的數(shù)量與模體 S 或模體
(13)例子中節(jié)點的最小數(shù)量之比。本例中有一個模體切割。(C)高階網絡聚類框架。給定的一個相關的圖形和模體(本例中為 M7)后,該框架通過計數(shù)雙節(jié)點在該模體中共現(xiàn)(co-occur)的次數(shù)來構成一個模體鄰接矩陣(motif adjacency matrix)(Wm)。然后再計算該模體鄰接矩陣的拉普拉斯變換(Laplacian transformation)的特征向量。由該特征向量的成分提供的節(jié)點排序 σ 產生了不斷變大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我們證明了帶有基于傳導率 ΦM(Sr) 的最小模體的集合 Sr 是接近最優(yōu)的高階聚類。
然而,就所研究現(xiàn)象而言,每種網絡類型提供的信息都是有限的。例如,一種疾病很少是單個變異基因或單個遭受破壞的分子相互作用所致,而是細胞內、細胞間互動造成的多重擾動產物。
網絡醫(yī)學 (network medicine) 將網絡分析和數(shù)據(jù)整合結合起來,挖掘補充數(shù)據(jù)中的財富,并揭示出貌似無關疾病之間的普遍分子機制 [8-11]。與之相反,患有看似相同疾病的病人,發(fā)病的分子機制可能不同,他們對治療的反應也可能不同(例如:癌癥異質性)[8-11]。因此,個性化醫(yī)療的目的在于基于單個病人基因和分子特征,為病人提供個性化療法,這可能涉及到根據(jù)不同病患分組,改變已知藥物用途,進而緩解開發(fā)新藥所需成本和時間給制藥行業(yè)帶來的瓶頸 [11,12]。
對于這些尚處初期的領域來說,分析和整合網絡數(shù)據(jù)的方法將是基礎,只有全盤挖掘所有可得基因、分子和臨床數(shù)據(jù) ,才有可能全面理解相關情況[11]。
圖二:秀麗隱桿線蟲神經元網絡的高階聚簇 (A)四節(jié)點雙扇模體(The four-node bi-fan motif),在神經網絡(1)中被過度表達。直觀上看,這個模體描述了從左邊節(jié)點向右邊節(jié)點傳遞合作繁殖信息的過程。(B)秀麗隱桿線蟲額葉神經元網絡的高階聚簇以(A)中的模體為基礎。這個聚簇包含了作為信源的 3 個帶有多個外向連接的環(huán)狀運動神經元(REML,-V,和 -R;青色),6 個作為目的地信息的帶有多個內向連接的內唇感覺神經元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4個 作為中介的URA 運動神經元(紫色)。這些 RME 神經元已被提為這個神經環(huán)的先導,而 IL2 神經元是已知的瞬眼調節(jié)器,同時這個高階聚簇會暴露它們的組織。這個聚簇也揭示了 RIH 是信息處理過程中的一個關鍵媒介。這個神經元有來自 3 個 REM 神經元的傳入鏈接,與 6 個IL2 神經元中的 5 個相連的外向連接,和該聚簇中總數(shù)最大的連接,它連接了該聚簇中任何一個神經元。(C)整個神經網絡環(huán)境中的II-lustration 高階聚簇。節(jié)點位置在這些神經元的真正二維空間嵌入的地方。大部分信息從左向右流動,而且我們看到 RMEV,-R,和 -L與 RIH 是作為右邊神經元的信息源。
全面分析互連世界,需要概念以及方法論范式的轉換。
不要孤立分析單個數(shù)據(jù)來源,例如基因序列比對( aligning genetic sequences )(它已經革新了我們對生物學的理解)[14],在單個框架中比對所有類型的數(shù)據(jù)——「數(shù)據(jù)比對(the data alignment)」才會帶來更為深入的洞見。
例如,一個細胞所有基因的和分子互動數(shù)據(jù),可以整合進同一個計算框架中,而且我們需要研發(fā)出一些方法,在一個新的「細胞比對(the cell alignment)」范式中比對這些「整合細胞(integrated cells)」。
同樣,我們已經分別研究過了世界經濟系統(tǒng),包括貿易網絡、金融交易、投資等[3,5] 。但是,對財富起源、危機和經濟復蘇的理解只能來自對比和整體分析所有層面的網絡化經濟和地緣政治數(shù)據(jù)。同樣,氣候測量的結果也是通過不同網絡類型編碼跨地理區(qū)域的各種氣候元素獲得(例如:風速、氣壓和溫度)之間的關系 [4],而且,全盤的數(shù)據(jù)對齊分析或許有助于解釋這種復雜動態(tài)系統(tǒng),并且更好預測人為改變帶來的影響。
可以抓住數(shù)據(jù)高階結構復雜性的數(shù)學形式體系(Mathematical formalisms),連同從那些數(shù)學形式體系中計算和提取信息的算法[15],應當?shù)玫桨l(fā)展和應用。將 Benson 等人 的框架擴展到用于在這些整合和對齊的數(shù)據(jù)系統(tǒng)中發(fā)現(xiàn)高階結構,可能是未來的發(fā)展路向。
源于數(shù)據(jù)規(guī)模巨大、復雜、異質、噪音以及不同時空尺度的計算問題,仍然需要加以解決。
圖三:加拿大和美國機場網絡的高階譜分析。(A)在我們的分析中使用的三種高階結構。每一個模體。每一個模體都「掛靠」于藍色的節(jié)點 i 和 j,這意味著我們的框架只能尋找將藍色節(jié)點聚類在一起。特別地,該模體鄰接矩陣會根據(jù)第三個中間節(jié)點(綠色方塊)而為 (i,j) 邊增加權重。前兩個模體對應于高度互連的城市,而最右邊的模體是非樞紐與非樞紐的連接。(B)美國人口最多的 50 個城市,每個城市分別對應于網絡中的一個節(jié)點。邊厚度正比于模體鄰接矩陣中的權重 Wm。厚的黑色線表示較大權重對應于流行的主線路徑。(C)由 Wm 的標準拉普拉斯的前兩個非平凡特征向量(nontrivial eigenvector)的它們的對應成分提供的節(jié)點嵌入。其中標注城市中有 8 個城市是美國最大的樞紐(綠色)、有 3 個是西海岸非樞紐(紅色)、還有 3 個是東海岸的非樞紐。主要的譜坐標(spectral coordinate)(從左至右)說明了城市的樞紐程度,而第二個譜坐標(從上至下)表示的是西到東的地理分布。(D)由標準的、基于邊的(非高階)標準拉普拉斯的前兩個非平凡特征向量中的對應成分提供的節(jié)點嵌入。該方法沒有獲取由高階方法發(fā)現(xiàn)的樞紐和地理。比如,最大的樞紐亞特蘭大位于嵌入的中心,和非樞紐城市 Salina 緊鄰。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03