
大數(shù)據(jù)揭示黃瓜苦味從何來_數(shù)據(jù)分析師
“基因組數(shù)據(jù)的爆炸性增長是在2009年以后,我們是從2007年開始實施黃瓜基因組計劃的,應(yīng)該說我們作出了正確的決策,徹底改變了2005年時蔬菜基因組國際競爭的局面?!?月24日,中國農(nóng)業(yè)科學(xué)院蔬菜花卉所研究員、深圳農(nóng)業(yè)基因組所副所長黃三文在中國農(nóng)業(yè)科學(xué)院舉行的農(nóng)科講壇上,向聽眾講述他和團隊破譯黃瓜基因組的故事。
為了探究黃瓜基因組大數(shù)據(jù)背后所代表的生命信息,黃三文帶領(lǐng)團隊歷時5年,分析黃瓜24000多個基因的變異和表達特征,逐個品嘗20畝黃瓜地中的6萬株黃瓜葉片和果實的味道,從一噸葉片中純化了毫克級的代謝中間產(chǎn)物。最終他們發(fā)現(xiàn)了黃瓜苦味的調(diào)控機制。
2014年11月28日出版的《科學(xué)》雜志以封面長篇論文形式發(fā)表了黃瓜苦味生物合成與調(diào)控的研究成果,揭示了黃瓜變苦的基因之路,這也是近幾年來《科學(xué)》《自然》和《自然—遺傳學(xué)》雜志第8次報道黃三文團隊的成果,對于我國蔬菜生物學(xué)研究是一次質(zhì)的飛躍。
沉寂四年:從馬鈴薯轉(zhuǎn)戰(zhàn)黃瓜
從2005年應(yīng)邀回國,直到2009年,黃三文課題組在《自然—遺傳學(xué)》雜志上發(fā)表黃瓜全基因組的文章,整整四年,黃三文的名字在國際學(xué)術(shù)期刊界是沉寂的。
2005年,時任農(nóng)科院副院長的屈冬玉研究員和蔬菜花卉所所長的杜永臣研究員,邀請在荷蘭瓦赫寧根大學(xué)獲得博士學(xué)位的黃三文回國,到蔬菜所生物技術(shù)室成立了功能基因課題組。
經(jīng)過多方努力,憑借在荷蘭的科研經(jīng)歷,課題組一成立就如愿參與了由荷蘭瓦赫寧根大學(xué)發(fā)起的大型國際合作項目——國際馬鈴薯基因組計劃,這也是我國參加的第一個蔬菜基因組國際計劃。黃三文作為中方首席科學(xué)家負(fù)責(zé)項目的組織和執(zhí)行。
然而計劃實施不久,擺在科研人員面前的“三座大山”就擋住了去路:被測試的馬鈴薯品種基因組高度雜合,拼接難度大;物理圖譜質(zhì)量低,項目進度嚴(yán)重拖延;傳統(tǒng)測序方法成本太高,而且按染色體分工的合作方式,很難被協(xié)調(diào)統(tǒng)一掌控。
“我回國兩年基本沒有取得什么進展,壓力很大,怎么辦?”讓黃三文感到幸運的是,2006年初新一代測序技術(shù)浮出水面?!斑@就像北京市的房價降到了5塊錢一平方米,那買房子就不成為大家經(jīng)濟上的困難了?!秉S三文意識到,傳統(tǒng)的測序技術(shù)將退出歷史舞臺。
黃三文敏銳地捕捉到這一契機,他向杜永臣提出書面建議,闡述了我方主導(dǎo)完成項目的必要性,為帶動我國蔬菜基因組學(xué)研究的快速發(fā)展搶占先機。為了提高成功的可能,他決定先從基因組較小的黃瓜開始。
“黃瓜基因組比較小,約3.3億個堿基對,是設(shè)施栽培第一大蔬菜作物,其遺傳基礎(chǔ)狹窄,遺傳研究基礎(chǔ)差,易突出基因組序列的作用,育種基礎(chǔ)好,資源累計較多,可以作為瓜類作物的模式系統(tǒng)。”黃三文是這樣解釋選中黃瓜的原因的。
于是,國際黃瓜基因組計劃在蔬菜所自籌經(jīng)費而生。他們提出“運用新一代基因組技術(shù),挖掘蔬菜作物的遺傳潛能”,參加者有華大基因、中國農(nóng)大、北京師大和國外若干單位。他們大膽采用了Solexa(Illumina)最新測序技術(shù)與傳統(tǒng)技術(shù)相結(jié)合的測序手段、全基因組鳥槍法測序策略等,并按照工作內(nèi)容分工,形成了遺傳圖譜團隊、基因組文庫團隊、熒光原位雜交團隊、拼接測試團隊、分子育種團隊等,蔬菜所研究人員加入各個團隊,邊學(xué)習(xí)、邊督促。
雪藏一年:黃瓜全基因組一鳴驚人
其實2008年時,黃三文課題組就已得到了可靠的黃瓜全基因組數(shù)據(jù),并構(gòu)建了世界上第一張黃瓜高密度圖譜。但黃三文并沒有著急發(fā)表成果,而是著眼于這一成果的應(yīng)用,思考更加廣闊的研究道路。雪藏一年后,他們才把成果投到《自然—遺傳學(xué)》雜志上,并一鳴驚人。
2006年時的二代測序技術(shù)還比較原始,比如現(xiàn)在的測序長度可達到250個堿基對,甚至400個堿基對,而當(dāng)時測序長度只有35個堿基對。于是,他們采取了新技術(shù)與傳統(tǒng)技術(shù)相結(jié)合的方法,很快就繪制了高質(zhì)量的黃瓜基因組框架圖。單堿基錯誤率只有十萬分之一,拼接總長達2.4億個堿基對。
黃三文團隊從頭構(gòu)建了黃瓜的遺傳研究體系,包括高密度的連鎖遺傳圖譜、細胞遺傳學(xué)圖譜、比較遺傳圖譜、遺傳—物理整合圖譜,定位了99%的黃瓜基因。
這一成果作為世界上第一個蔬菜基因組,發(fā)表在《自然—遺傳學(xué)》上。該雜志高度重視這一成果,不僅作為封面文章,還配發(fā)社論。在這期雜志封面上采用了達爾文的頭像,因為達爾文曾經(jīng)寫過一本書,里面很多內(nèi)容是瓜類的,特別是黃瓜和南瓜的研究。
隨后幾年,黃三文課題組累計產(chǎn)生了10×1012(10Tbps)個堿基對的大數(shù)據(jù)。除了基因組以外,他們還研究了黃瓜的轉(zhuǎn)錄組,對100多個不同的黃瓜材料進行了測序,了解了黃瓜24000多個基因的表達模式,如在什么地方表達,在什么時期表達,在什么條件下表達,這些都是重要的信息。
為了系統(tǒng)掌握黃瓜的變異,他們收集3342份黃瓜種質(zhì)資源,包括印度野生種、我國西雙版納種、華北黃瓜、華南黃瓜、日本黃瓜、土耳其黃瓜、歐洲黃瓜和美國黃瓜等。通過對所有資源進行基因組分析,最后篩選出115份核心資源,代表75%的遺傳多樣性,進行了18倍深度測序,最后發(fā)現(xiàn)接近400萬個變異位點。
利用這些數(shù)據(jù),他們解析了黃瓜群體結(jié)構(gòu),發(fā)現(xiàn)黃瓜有4個群體:一個是在印度的野生群體;三個栽培群體,分別是東亞黃瓜、歐洲黃瓜和西雙版納黃瓜。黃瓜是在印度被馴化的,變異組數(shù)據(jù)很符合一個史實:約2200年以前張騫出使西域時黃瓜被引入中國華北。
“有了基因組以后,就有了‘共同語言’,我們可以把模式物種里面的知識翻譯到農(nóng)業(yè)物種里面來;基因組是‘歷史書’,有了變異組數(shù)據(jù),我們可以重新去揭示改良馴化;基因組是‘地圖勘探圖’,利用它,我們可以進行黃瓜苦味的生物合成、調(diào)控與馴化?!秉S三文說。
潛心五年:破譯黃瓜苦味來源
在黃三文看來,基因組測序完成只是一小步,對海量數(shù)據(jù)的處理與運算才是更為重要的事情。
利用這些組織學(xué)資源,黃三文課題組發(fā)現(xiàn)了清香形成和苦味形成的侯選基因,特別是苦味形成的侯選基因發(fā)現(xiàn)為后來研究起到了重要的作用。
黃瓜的苦味是葫蘆素造成的,這種苦味在果實中存在會影響品質(zhì)和生產(chǎn)效益,但在葉片中存在能提高抗蟲性,減少農(nóng)藥施用;同時,葫蘆素是有希望的抗癌藥物,但生產(chǎn)難度大。因此,“苦味很重要?!秉S三文說。
但是他們只有兩個線索。
一是2009年發(fā)現(xiàn)的染色體6上的Bi基因;二是2013年發(fā)現(xiàn)的染色體5上的Bt基因,這個基因是黃瓜馴化的主要基因。
但Bi和Bt是什么基因?苦味物質(zhì)是怎么合成和調(diào)控的?野生黃瓜是怎么馴化的?為了回答這些問題,黃三文課題組的策略是大數(shù)據(jù)與分子生物學(xué)和生物化學(xué)。
通過全基因組關(guān)聯(lián)分析,他們發(fā)現(xiàn)Bi就是催化氧化形成四環(huán)的葫蘆二烯醇合酶的基因;隨后又通過突變體發(fā)現(xiàn)了BI基因,其負(fù)責(zé)調(diào)控葉片的部位;利用BI他們又發(fā)現(xiàn)了Bt;利用BI和Bt發(fā)現(xiàn)了另外8個合成基因。
這個過程,傳統(tǒng)研究方法需二三十年才能完成,用大數(shù)據(jù)分析方法卻在5年內(nèi)做到了。
黃三文介紹,這項研究有三個意義:揭示了黃瓜苦味形成的雙重調(diào)控機制,葉片里面由BI調(diào)控,果實里面由Bt調(diào)控,這樣就給無苦味黃瓜育種提供了新的方案;證明了存在一類主開關(guān)基因能夠直接調(diào)控次生代謝基因簇;為通過合成生物學(xué)批量生產(chǎn)和改造葫蘆素用于抗癌藥物打開了一扇門。
這恰恰驗證了黃三文的“三層樓”黃金理論,即地基是基因組大數(shù)據(jù),通過多學(xué)科交叉融合,搭建三層樓:第一層是基因組大數(shù)據(jù)與蔬菜生物學(xué),第二層是基因組大數(shù)據(jù)與蔬菜育種,第三層是基因組大數(shù)據(jù)與蔬菜品質(zhì)和營養(yǎng)?!叭龑訕恰苯梃b了人類基因組項目首席科學(xué)家Francis S. Collins的“基因組學(xué)時代的藍圖”的思想。
在黃瓜基因組計劃取得成功后,黃三文和團隊又攻克了馬鈴薯、白菜、番茄和西瓜基因組,并在黃瓜和番茄變異組研究上也取得突破,為我國蔬菜基因組研究鋪就了結(jié)實的“地基”。像解決黃瓜的苦味生物學(xué)問題一樣,他們還和其他團隊合作,正在闡明多個農(nóng)藝性狀的分子機理,這都將為蔬菜全基因組設(shè)計育種提供知識基礎(chǔ)。“我相信不久的未來,基因組學(xué)研究能為大家吃上‘放心菜’做出具體的貢獻”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10