
大數(shù)據(jù)揭示黃瓜苦味從何來(lái)_數(shù)據(jù)分析師
“基因組數(shù)據(jù)的爆炸性增長(zhǎng)是在2009年以后,我們是從2007年開(kāi)始實(shí)施黃瓜基因組計(jì)劃的,應(yīng)該說(shuō)我們作出了正確的決策,徹底改變了2005年時(shí)蔬菜基因組國(guó)際競(jìng)爭(zhēng)的局面?!?月24日,中國(guó)農(nóng)業(yè)科學(xué)院蔬菜花卉所研究員、深圳農(nóng)業(yè)基因組所副所長(zhǎng)黃三文在中國(guó)農(nóng)業(yè)科學(xué)院舉行的農(nóng)科講壇上,向聽(tīng)眾講述他和團(tuán)隊(duì)破譯黃瓜基因組的故事。
為了探究黃瓜基因組大數(shù)據(jù)背后所代表的生命信息,黃三文帶領(lǐng)團(tuán)隊(duì)歷時(shí)5年,分析黃瓜24000多個(gè)基因的變異和表達(dá)特征,逐個(gè)品嘗20畝黃瓜地中的6萬(wàn)株黃瓜葉片和果實(shí)的味道,從一噸葉片中純化了毫克級(jí)的代謝中間產(chǎn)物。最終他們發(fā)現(xiàn)了黃瓜苦味的調(diào)控機(jī)制。
2014年11月28日出版的《科學(xué)》雜志以封面長(zhǎng)篇論文形式發(fā)表了黃瓜苦味生物合成與調(diào)控的研究成果,揭示了黃瓜變苦的基因之路,這也是近幾年來(lái)《科學(xué)》《自然》和《自然—遺傳學(xué)》雜志第8次報(bào)道黃三文團(tuán)隊(duì)的成果,對(duì)于我國(guó)蔬菜生物學(xué)研究是一次質(zhì)的飛躍。
沉寂四年:從馬鈴薯轉(zhuǎn)戰(zhàn)黃瓜
從2005年應(yīng)邀回國(guó),直到2009年,黃三文課題組在《自然—遺傳學(xué)》雜志上發(fā)表黃瓜全基因組的文章,整整四年,黃三文的名字在國(guó)際學(xué)術(shù)期刊界是沉寂的。
2005年,時(shí)任農(nóng)科院副院長(zhǎng)的屈冬玉研究員和蔬菜花卉所所長(zhǎng)的杜永臣研究員,邀請(qǐng)?jiān)诤商m瓦赫寧根大學(xué)獲得博士學(xué)位的黃三文回國(guó),到蔬菜所生物技術(shù)室成立了功能基因課題組。
經(jīng)過(guò)多方努力,憑借在荷蘭的科研經(jīng)歷,課題組一成立就如愿參與了由荷蘭瓦赫寧根大學(xué)發(fā)起的大型國(guó)際合作項(xiàng)目——國(guó)際馬鈴薯基因組計(jì)劃,這也是我國(guó)參加的第一個(gè)蔬菜基因組國(guó)際計(jì)劃。黃三文作為中方首席科學(xué)家負(fù)責(zé)項(xiàng)目的組織和執(zhí)行。
然而計(jì)劃實(shí)施不久,擺在科研人員面前的“三座大山”就擋住了去路:被測(cè)試的馬鈴薯品種基因組高度雜合,拼接難度大;物理圖譜質(zhì)量低,項(xiàng)目進(jìn)度嚴(yán)重拖延;傳統(tǒng)測(cè)序方法成本太高,而且按染色體分工的合作方式,很難被協(xié)調(diào)統(tǒng)一掌控。
“我回國(guó)兩年基本沒(méi)有取得什么進(jìn)展,壓力很大,怎么辦?”讓黃三文感到幸運(yùn)的是,2006年初新一代測(cè)序技術(shù)浮出水面?!斑@就像北京市的房?jī)r(jià)降到了5塊錢一平方米,那買房子就不成為大家經(jīng)濟(jì)上的困難了?!秉S三文意識(shí)到,傳統(tǒng)的測(cè)序技術(shù)將退出歷史舞臺(tái)。
黃三文敏銳地捕捉到這一契機(jī),他向杜永臣提出書面建議,闡述了我方主導(dǎo)完成項(xiàng)目的必要性,為帶動(dòng)我國(guó)蔬菜基因組學(xué)研究的快速發(fā)展搶占先機(jī)。為了提高成功的可能,他決定先從基因組較小的黃瓜開(kāi)始。
“黃瓜基因組比較小,約3.3億個(gè)堿基對(duì),是設(shè)施栽培第一大蔬菜作物,其遺傳基礎(chǔ)狹窄,遺傳研究基礎(chǔ)差,易突出基因組序列的作用,育種基礎(chǔ)好,資源累計(jì)較多,可以作為瓜類作物的模式系統(tǒng)?!秉S三文是這樣解釋選中黃瓜的原因的。
于是,國(guó)際黃瓜基因組計(jì)劃在蔬菜所自籌經(jīng)費(fèi)而生。他們提出“運(yùn)用新一代基因組技術(shù),挖掘蔬菜作物的遺傳潛能”,參加者有華大基因、中國(guó)農(nóng)大、北京師大和國(guó)外若干單位。他們大膽采用了Solexa(Illumina)最新測(cè)序技術(shù)與傳統(tǒng)技術(shù)相結(jié)合的測(cè)序手段、全基因組鳥(niǎo)槍法測(cè)序策略等,并按照工作內(nèi)容分工,形成了遺傳圖譜團(tuán)隊(duì)、基因組文庫(kù)團(tuán)隊(duì)、熒光原位雜交團(tuán)隊(duì)、拼接測(cè)試團(tuán)隊(duì)、分子育種團(tuán)隊(duì)等,蔬菜所研究人員加入各個(gè)團(tuán)隊(duì),邊學(xué)習(xí)、邊督促。
雪藏一年:黃瓜全基因組一鳴驚人
其實(shí)2008年時(shí),黃三文課題組就已得到了可靠的黃瓜全基因組數(shù)據(jù),并構(gòu)建了世界上第一張黃瓜高密度圖譜。但黃三文并沒(méi)有著急發(fā)表成果,而是著眼于這一成果的應(yīng)用,思考更加廣闊的研究道路。雪藏一年后,他們才把成果投到《自然—遺傳學(xué)》雜志上,并一鳴驚人。
2006年時(shí)的二代測(cè)序技術(shù)還比較原始,比如現(xiàn)在的測(cè)序長(zhǎng)度可達(dá)到250個(gè)堿基對(duì),甚至400個(gè)堿基對(duì),而當(dāng)時(shí)測(cè)序長(zhǎng)度只有35個(gè)堿基對(duì)。于是,他們采取了新技術(shù)與傳統(tǒng)技術(shù)相結(jié)合的方法,很快就繪制了高質(zhì)量的黃瓜基因組框架圖。單堿基錯(cuò)誤率只有十萬(wàn)分之一,拼接總長(zhǎng)達(dá)2.4億個(gè)堿基對(duì)。
黃三文團(tuán)隊(duì)從頭構(gòu)建了黃瓜的遺傳研究體系,包括高密度的連鎖遺傳圖譜、細(xì)胞遺傳學(xué)圖譜、比較遺傳圖譜、遺傳—物理整合圖譜,定位了99%的黃瓜基因。
這一成果作為世界上第一個(gè)蔬菜基因組,發(fā)表在《自然—遺傳學(xué)》上。該雜志高度重視這一成果,不僅作為封面文章,還配發(fā)社論。在這期雜志封面上采用了達(dá)爾文的頭像,因?yàn)檫_(dá)爾文曾經(jīng)寫過(guò)一本書,里面很多內(nèi)容是瓜類的,特別是黃瓜和南瓜的研究。
隨后幾年,黃三文課題組累計(jì)產(chǎn)生了10×1012(10Tbps)個(gè)堿基對(duì)的大數(shù)據(jù)。除了基因組以外,他們還研究了黃瓜的轉(zhuǎn)錄組,對(duì)100多個(gè)不同的黃瓜材料進(jìn)行了測(cè)序,了解了黃瓜24000多個(gè)基因的表達(dá)模式,如在什么地方表達(dá),在什么時(shí)期表達(dá),在什么條件下表達(dá),這些都是重要的信息。
為了系統(tǒng)掌握黃瓜的變異,他們收集3342份黃瓜種質(zhì)資源,包括印度野生種、我國(guó)西雙版納種、華北黃瓜、華南黃瓜、日本黃瓜、土耳其黃瓜、歐洲黃瓜和美國(guó)黃瓜等。通過(guò)對(duì)所有資源進(jìn)行基因組分析,最后篩選出115份核心資源,代表75%的遺傳多樣性,進(jìn)行了18倍深度測(cè)序,最后發(fā)現(xiàn)接近400萬(wàn)個(gè)變異位點(diǎn)。
利用這些數(shù)據(jù),他們解析了黃瓜群體結(jié)構(gòu),發(fā)現(xiàn)黃瓜有4個(gè)群體:一個(gè)是在印度的野生群體;三個(gè)栽培群體,分別是東亞黃瓜、歐洲黃瓜和西雙版納黃瓜。黃瓜是在印度被馴化的,變異組數(shù)據(jù)很符合一個(gè)史實(shí):約2200年以前張騫出使西域時(shí)黃瓜被引入中國(guó)華北。
“有了基因組以后,就有了‘共同語(yǔ)言’,我們可以把模式物種里面的知識(shí)翻譯到農(nóng)業(yè)物種里面來(lái);基因組是‘歷史書’,有了變異組數(shù)據(jù),我們可以重新去揭示改良馴化;基因組是‘地圖勘探圖’,利用它,我們可以進(jìn)行黃瓜苦味的生物合成、調(diào)控與馴化。”黃三文說(shuō)。
潛心五年:破譯黃瓜苦味來(lái)源
在黃三文看來(lái),基因組測(cè)序完成只是一小步,對(duì)海量數(shù)據(jù)的處理與運(yùn)算才是更為重要的事情。
利用這些組織學(xué)資源,黃三文課題組發(fā)現(xiàn)了清香形成和苦味形成的侯選基因,特別是苦味形成的侯選基因發(fā)現(xiàn)為后來(lái)研究起到了重要的作用。
黃瓜的苦味是葫蘆素造成的,這種苦味在果實(shí)中存在會(huì)影響品質(zhì)和生產(chǎn)效益,但在葉片中存在能提高抗蟲性,減少農(nóng)藥施用;同時(shí),葫蘆素是有希望的抗癌藥物,但生產(chǎn)難度大。因此,“苦味很重要?!秉S三文說(shuō)。
但是他們只有兩個(gè)線索。
一是2009年發(fā)現(xiàn)的染色體6上的Bi基因;二是2013年發(fā)現(xiàn)的染色體5上的Bt基因,這個(gè)基因是黃瓜馴化的主要基因。
但Bi和Bt是什么基因?苦味物質(zhì)是怎么合成和調(diào)控的?野生黃瓜是怎么馴化的?為了回答這些問(wèn)題,黃三文課題組的策略是大數(shù)據(jù)與分子生物學(xué)和生物化學(xué)。
通過(guò)全基因組關(guān)聯(lián)分析,他們發(fā)現(xiàn)Bi就是催化氧化形成四環(huán)的葫蘆二烯醇合酶的基因;隨后又通過(guò)突變體發(fā)現(xiàn)了BI基因,其負(fù)責(zé)調(diào)控葉片的部位;利用BI他們又發(fā)現(xiàn)了Bt;利用BI和Bt發(fā)現(xiàn)了另外8個(gè)合成基因。
這個(gè)過(guò)程,傳統(tǒng)研究方法需二三十年才能完成,用大數(shù)據(jù)分析方法卻在5年內(nèi)做到了。
黃三文介紹,這項(xiàng)研究有三個(gè)意義:揭示了黃瓜苦味形成的雙重調(diào)控機(jī)制,葉片里面由BI調(diào)控,果實(shí)里面由Bt調(diào)控,這樣就給無(wú)苦味黃瓜育種提供了新的方案;證明了存在一類主開(kāi)關(guān)基因能夠直接調(diào)控次生代謝基因簇;為通過(guò)合成生物學(xué)批量生產(chǎn)和改造葫蘆素用于抗癌藥物打開(kāi)了一扇門。
這恰恰驗(yàn)證了黃三文的“三層樓”黃金理論,即地基是基因組大數(shù)據(jù),通過(guò)多學(xué)科交叉融合,搭建三層樓:第一層是基因組大數(shù)據(jù)與蔬菜生物學(xué),第二層是基因組大數(shù)據(jù)與蔬菜育種,第三層是基因組大數(shù)據(jù)與蔬菜品質(zhì)和營(yíng)養(yǎng)?!叭龑訕恰苯梃b了人類基因組項(xiàng)目首席科學(xué)家Francis S. Collins的“基因組學(xué)時(shí)代的藍(lán)圖”的思想。
在黃瓜基因組計(jì)劃取得成功后,黃三文和團(tuán)隊(duì)又攻克了馬鈴薯、白菜、番茄和西瓜基因組,并在黃瓜和番茄變異組研究上也取得突破,為我國(guó)蔬菜基因組研究鋪就了結(jié)實(shí)的“地基”。像解決黃瓜的苦味生物學(xué)問(wèn)題一樣,他們還和其他團(tuán)隊(duì)合作,正在闡明多個(gè)農(nóng)藝性狀的分子機(jī)理,這都將為蔬菜全基因組設(shè)計(jì)育種提供知識(shí)基礎(chǔ)?!拔蚁嘈挪痪玫奈磥?lái),基因組學(xué)研究能為大家吃上‘放心菜’做出具體的貢獻(xiàn)”。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03