
大腦袋需要大數(shù)據(jù)
全球各種大腦圖譜計劃正在展開,中國臺灣的計劃似乎有些小。當(dāng)?shù)乜茖W(xué)家正在研究果蠅,通過單個神經(jīng)元成像逆向編輯其大腦。他們的工作已經(jīng)以驚人詳細(xì)的程度制作了大腦電路的三維圖像。
研究人員僅需要一個計算機(jī)鼠標(biāo)和一個網(wǎng)頁瀏覽器就能追蹤單個細(xì)胞并將其縮放回神經(jīng)束交織的網(wǎng)絡(luò)中。這些布線圖看起來像掛毯上五顏六色的線,它們可以非常清晰地表明哪些細(xì)胞簇控制具體的行為。通過刺激具體的神經(jīng)線路,研究人員能夠提示一只果蠅拍打其左翅或是搖頭,這一技能去年11月在美國加州圣迭戈舉行的神經(jīng)科學(xué)年會上導(dǎo)致參會者整個下午特別激動。
但臺灣新竹清華大學(xué)神經(jīng)學(xué)家Ann-Shyn Chiang說,即便是對于這樣一個小生物,也耗費(fèi)了該團(tuán)隊整整十年以每個細(xì)胞10億字節(jié)的比率繪制6萬個神經(jīng)元。這甚至不足果蠅屬大腦神經(jīng)細(xì)胞的一半。若以此推算,利用同樣的方式繪制人腦中的860億個神經(jīng)元將要花費(fèi)1700萬年,Chiang在會議上報告說。
其他的技術(shù)更加易于處理。2016年7月,一個國際團(tuán)隊發(fā)表了人腦褶皺外層——大腦皮層的圖譜。很多科學(xué)家認(rèn)為這是到目前為止最詳細(xì)的人腦連接圖。然而,即便在其最高空間分辨率(1立方毫米),每個立體像素(三維物體最小的可分辨元素)均包含數(shù)千萬個神經(jīng)元。這與以單細(xì)胞繪制果蠅神經(jīng)元連接圖可謂差別懸殊。
所以,在神經(jīng)生物學(xué)的世界里,大數(shù)據(jù)確實是龐大的數(shù)據(jù)量。盡管計算機(jī)基礎(chǔ)設(shè)施和數(shù)據(jù)傳輸的進(jìn)步,“大數(shù)據(jù)”革命數(shù)十年前曾席卷基因組學(xué)領(lǐng)域,如今神經(jīng)科學(xué)家仍在努力應(yīng)對他們所在領(lǐng)域的新革命。
有多大
這一部分是因為無論是什么物種,大腦都如此巨大、關(guān)聯(lián)度如此之高。但它也來自于細(xì)胞難處理的維度。哺乳動物的神經(jīng)元主要延伸(即軸突)是其最小分支(樹突)長度和寬度的20萬倍。如果用意大利面代表樹突,那些神經(jīng)元自身就超過1公里的1/3,或是4個美式足球場。
在實驗室中,研究人員通過成百上千個重疊的大腦切片圖像堆疊跟蹤其數(shù)千個投影,從而繪制每個神經(jīng)元。以光為基礎(chǔ)的顯微鏡能夠承載0.25~0.5微米的分辨率,這足以跟蹤一個神經(jīng)元的主體。但想要揭示突觸(通過電子或化學(xué)信號流的分鐘信號銜接點),納米成像電子顯微鏡是必需的。更高的像素意味著觀測領(lǐng)域更小和更多圖片。更多圖片意味著更多數(shù)據(jù)。
“我們不再是應(yīng)對百萬字節(jié),甚至是千兆字節(jié)?!甭迳即壞霞又荽髮W(xué)神經(jīng)成像實驗室負(fù)責(zé)人Arthur Toga說,“我們應(yīng)對的是兆兆字節(jié)。將它從一個地方挪到另一個地方就是一個問題?!眱烧渍鬃止?jié)的數(shù)據(jù)將填滿很多臺式機(jī)的硬盤。
Chiang的果蠅團(tuán)隊對1兆兆字節(jié)的圖像進(jìn)行了梳理,以重建1000個神經(jīng)細(xì)胞——少于果蠅屬大腦的1%。HCP明尼波利斯明尼蘇達(dá)大學(xué)共同首席研究員Kamil Ugurbil說,為了繪制人類大腦皮層圖像,HCP研究人員分析了來自210名健康青年人的6兆兆字節(jié)的核磁共振(MRI)成像數(shù)據(jù)。實驗室可以從該項目的網(wǎng)站或更大的數(shù)據(jù)集中下載那些數(shù)據(jù),每次下載那些8兆兆字節(jié)的文件需要花費(fèi)200美元。
電生理學(xué)研究在計算方面也變得更加吃力。今天,研究人員通常每次記錄數(shù)百個神經(jīng)元。很快,它將會達(dá)到數(shù)千個;在5年內(nèi),將達(dá)到成千上萬個,瑞士日內(nèi)瓦大學(xué)神經(jīng)學(xué)家Alexandre Pouget說?!斑@是我們將要發(fā)生的跳躍式前進(jìn)?!?
劍橋哈佛大學(xué)神經(jīng)學(xué)家Florian Engert說,如果你記錄小鼠大腦神經(jīng)元活動20分鐘,那么將會產(chǎn)生約500拍字節(jié)的“閃爍”,其中神經(jīng)細(xì)胞放電代表為像素值的變化。
神經(jīng)學(xué)家沒有可以對比的模型,沒有將神經(jīng)連接和活動行為、記憶或認(rèn)識相關(guān)連的地圖??紤]到大腦巨大的錯綜復(fù)雜性,馬里蘭州美國精神健康研究所負(fù)責(zé)人Greg Farber說,問題“并不在于我們有過多的數(shù)據(jù),而是我們遠(yuǎn)沒有達(dá)到需要解決這個復(fù)雜問題的數(shù)據(jù)”。
搭建橋梁
過去17年,鹽湖城猶他大學(xué)研究神經(jīng)發(fā)育紊亂的系統(tǒng)神經(jīng)學(xué)家Julie Korenberg和同事一直研究在恒河猴中繪制大腦邊緣系統(tǒng)。這種靈長類動物大腦有60億個神經(jīng)元,而人類大腦則有860億個。但在研究模型中,恒河猴與小鼠或果蠅相比同人類血緣關(guān)系最近。
Korenberg的團(tuán)隊正在開發(fā)一個三維協(xié)調(diào)模型,與恒河猴大腦中各種神經(jīng)成像數(shù)據(jù)相匹配,這些數(shù)據(jù)包括從整個大腦MRI連接到單細(xì)胞公焦數(shù)據(jù)以及一些區(qū)域的電子顯微鏡亞細(xì)胞分辨率。他們在建立“一個讓你在一個圖像上選擇一個點并以另一種分辨率來看這個點的系統(tǒng)”,國立精神衛(wèi)生研究所(NIMH)影響社會行為和社會認(rèn)知項目領(lǐng)頭人Janine Simmons說,該機(jī)構(gòu)為Korenberg的研究提供了部分支持。Simmons說,它有些類似谷歌地球,例如,你可以將焦距從40 ×直接轉(zhuǎn)變?yōu)? ×,但卻不能得到這些變焦尺度之間的層次。
利用20×共焦透鏡繪制恒河猴大腦邊緣系統(tǒng)圖像將需要巨大的數(shù)據(jù)集,每個動物遠(yuǎn)超過600兆兆字節(jié)。到目前為止,該團(tuán)隊已經(jīng)收集了約100兆兆字節(jié)的數(shù)據(jù)信息,可以通過30太字節(jié)的本地服務(wù)器與云端儲存連接的聯(lián)網(wǎng)儲存設(shè)備獲取。Korenberg說,研究人員可以用縮小尺寸的數(shù)據(jù)集和一臺性能良好的筆記本電腦解決一些問題。但操作大規(guī)模的三維共焦數(shù)據(jù)集需要特別的工作站,即便如此傳遞每個平鋪的圖片也很緩慢。
然而,這項尚待發(fā)表的研究“有可能成為連接這一領(lǐng)域最重要的進(jìn)展”。紐約市西奈山醫(yī)院神經(jīng)解剖學(xué)家Patrick Hof說,他曾與Korenberg合作過。例如,Korenberg說,這些數(shù)據(jù)可以幫助科學(xué)家將在特定神經(jīng)紊亂(如精神分裂癥和自閉癥)中看上去很重要的基因聯(lián)系起來,從而了解確切的大腦線路異常。
文化轉(zhuǎn)變
隨著科學(xué)家將可能的范圍向前推動,他們在建立一個計算通道以應(yīng)對日益加大的工作量,此外還在建立新的工具共享和可視化最終生成的數(shù)據(jù)。但緩解神經(jīng)科學(xué)家的數(shù)據(jù)問題,需要的不只是工具研發(fā),還需要文化轉(zhuǎn)變。很難讓人們“放開他們的數(shù)據(jù)”,加州斯坦福大學(xué)心理學(xué)家Russell Poldrack說,他用神經(jīng)成像研究學(xué)習(xí)和記憶。它可能會成為“一代人的事情”,他說,千禧一代人“比我們這一代人更喜歡共享編碼和數(shù)據(jù)”。Poldrack擔(dān)心,一流科學(xué)家可能會因為科學(xué)“與他們認(rèn)為其應(yīng)該具有的價值不匹配”而沮喪,并離開這個領(lǐng)域。
但態(tài)度在逐漸轉(zhuǎn)變,首先是那些針對軟件的,其次是數(shù)據(jù)。傳統(tǒng)上,神經(jīng)成像實驗室會花費(fèi)大量時間下載和裝載同樣的β測試軟件?!盀楦鞣N軟件失靈和計算瓶頸開路,編寫大量累贅的編碼以及進(jìn)行他們自己的數(shù)據(jù)管理解決方案,以處理同樣的問題”。加州大學(xué)戴維斯分校神經(jīng)科學(xué)博士生David Grayson說。更糟糕的是,很多非研究性任務(wù)被委托給學(xué)生、博士后和年輕科學(xué)家。
傳統(tǒng)的學(xué)術(shù)模式對此沒有幫助。研究人員通常會設(shè)置假設(shè),并在其團(tuán)隊內(nèi)獨(dú)立地考慮自己的想法。在這樣的環(huán)境中,研究并未把人帶到一起,而是將他們分散開來,華盛頓西雅圖艾倫腦科學(xué)研究所的Hongkui Zeng說?!澳阈枰屪约翰煌?。需要在該領(lǐng)域建立自己的身份,你需要做一些與他人不同的事情。”
在談到大腦研究時,“完成”是個移動性的目標(biāo)。對于神經(jīng)科學(xué)工具包來說也是如此。在神經(jīng)科學(xué)學(xué)會年會的講話中,Chiang感嘆繪制一只果蠅大腦的一半圖譜居然花費(fèi)了10年。他們與中國臺灣的物理學(xué)家合作,正開始利用一種叫作同步加速器X射線斷層掃描的技術(shù)大幅提高數(shù)據(jù)認(rèn)知?!八鼉H需要不到10分鐘就繪制一只果蠅的大腦圖像,其中包含數(shù)千個高爾基染色單個神經(jīng)元?!盋hiang說,他的團(tuán)隊正在小鼠和豬身上嘗試該方法。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10