
機(jī)器學(xué)習(xí)和大數(shù)據(jù)正幫助化學(xué)家搜尋藥物
2016年,制藥公司Sunovion給一群經(jīng)驗(yàn)豐富的員工布置了一項(xiàng)不同尋常的作業(yè)。在位于美國(guó)馬薩諸塞州馬爾伯勒的公司總部,這些藥劑師被要求玩一個(gè)游戲,以便確定誰(shuí)能發(fā)現(xiàn)針對(duì)新藥的最好的先導(dǎo)化合物。他們的工作臺(tái)上是一個(gè)由上百種化學(xué)結(jié)構(gòu)組成的網(wǎng)格,其中僅有10種被標(biāo)上了關(guān)于其生物效應(yīng)的信息。專家們不得不利用辛苦獲得的化學(xué)結(jié)構(gòu)和生物學(xué)方面的知識(shí),選擇其他可能最終成為候選藥物的分子。在11名參與者中,有10人花了好幾個(gè)小時(shí)才艱難地完成任務(wù)。不過(guò),有1名參與者僅用了幾毫秒便輕松過(guò)關(guān)——因?yàn)樗且粋€(gè)算法。
這個(gè)電腦程序是Willem van Hoorn腦力勞動(dòng)的產(chǎn)物。van Hoorn是利用人工智能設(shè)計(jì)藥物的初創(chuàng)公司——Exscientia化學(xué)信息學(xué)部門的負(fù)責(zé)人。該公司總部位于英國(guó)敦提,想同Sunovion擴(kuò)展新興的伙伴關(guān)系,因此這次比賽事關(guān)重大。“我的信譽(yù)冒著極大的風(fēng)險(xiǎn)。”van Hoorn說(shuō)。20輪游戲過(guò)后,他統(tǒng)計(jì)了得分,然后長(zhǎng)舒了一口氣。只有一位尋找藥物的專家打敗了機(jī)器。
自此以后,Exscientia和Sunovion繼續(xù)開(kāi)展合作,以發(fā)現(xiàn)精神治療藥物。“這場(chǎng)競(jìng)賽確實(shí)幫助獲得了那些作出化學(xué)研究決定的人們的支持。”在Sunovion公司負(fù)責(zé)計(jì)算化學(xué)業(yè)務(wù)的Scott Brown表示。
探索化學(xué)宇宙
要想在化學(xué)宇宙中“航行”,最好有一幅地圖。2001年,瑞士伯爾尼大學(xué)化學(xué)家Jean-Louis Reymond開(kāi)始利用計(jì)算機(jī)繪制盡可能多的化學(xué)空間。16年后,他積累了全世界最大的小分子數(shù)據(jù)庫(kù)——由1660億種化合物構(gòu)成的巨大虛擬庫(kù)。這個(gè)被稱為GDB-17的數(shù)據(jù)庫(kù)包括所有最多由17個(gè)原子構(gòu)成并且從化學(xué)角度看很合理的有機(jī)分子。這也是Reymond的計(jì)算機(jī)所能處理的數(shù)據(jù)量的上限。
為理解這些繁多的可能的藥物起點(diǎn),Reymond想到了一種組織化學(xué)宇宙的方法。受元素周期表的啟發(fā),他將化合物在一個(gè)多維空間中分組。在這個(gè)空間中,鄰近的化合物擁有相關(guān)聯(lián)的屬性。位置則根據(jù)諸如每種化合物有多少個(gè)碳原子等42個(gè)特征進(jìn)行分配。
對(duì)于每種進(jìn)入市場(chǎng)的藥物來(lái)說(shuō),會(huì)有幾百萬(wàn)種化合物在化學(xué)性質(zhì)上和其幾乎相同。其中一些化合物的表現(xiàn)甚至比已經(jīng)獲批的藥物還好。藥劑師在沒(méi)有外界幫助的情況下幾乎不可能想象出所有這些差異?!肮庥眉埡凸P,你肯定沒(méi)辦法搞清楚這些同分異構(gòu)體?!盧eymond表示。
Reymond和同事通過(guò)尋找化合物之間的相似性,辨別出在治療上有前景的被證實(shí)藥物的“近鄰”。該團(tuán)隊(duì)利用一種特定的藥物作為起點(diǎn),僅在3分鐘內(nèi)便梳理了數(shù)據(jù)庫(kù)中所有1660億種化合物,以尋找引人注目的候選藥物。在一項(xiàng)概念驗(yàn)證實(shí)驗(yàn)中,Reymond從一種同煙堿型乙酰膽堿受體(一個(gè)和神經(jīng)系統(tǒng)以及肌肉功能相關(guān)的疾病的有用靶點(diǎn))相結(jié)合的已知分子入手,編輯了一個(gè)由344種相關(guān)化合物組成的最終候選藥物名單。該團(tuán)隊(duì)合成了3種藥物,并且發(fā)現(xiàn)有兩種可強(qiáng)有力地激活上述受體,因此可能在治療衰老過(guò)程中出現(xiàn)的肌肉萎縮方面排上用場(chǎng)。Reymond介紹說(shuō),這種方法就像利用地質(zhì)圖弄清楚到哪里開(kāi)采黃金?!澳阈枰恍┓椒ㄟx擇將去哪里挖掘?!?
另一種替代方法
另一種替代方法利用計(jì)算機(jī)獲得眾多金礦位置,而無(wú)須過(guò)多擔(dān)心起始地點(diǎn)。就尋找藥物而言,這意味著在巨大的化合物庫(kù)中進(jìn)行篩選,以尋找同既定蛋白相結(jié)合的小分子。首先,研究人員利用X射線結(jié)晶學(xué)拍下蛋白的快照,以確定結(jié)合部位的形狀。隨后,利用分子對(duì)接算法,計(jì)算化學(xué)家一步步地搜遍整個(gè)化合物數(shù)據(jù)庫(kù),以尋找針對(duì)任何既定部位的最佳匹配小分子。
隨著計(jì)算能力的爆發(fā),這些算法的性能也得以改善。2016年,由Brian Shoichet領(lǐng)導(dǎo)的加州大學(xué)舊金山分?;瘜W(xué)家在尋找一類新的止痛藥的過(guò)程中,展示了這種方法的潛力。該團(tuán)隊(duì)篩選了300多萬(wàn)種市場(chǎng)上可買到的化合物,目標(biāo)是尋找在不干擾密切相關(guān)的β-arrestin信號(hào)通路的情況下可選擇性激活μ-阿片受體信號(hào)以緩解疼痛感的候選藥物。研究認(rèn)為,β-arrestin信號(hào)通路同阿片類藥物的副作用存在關(guān)聯(lián),包括呼吸速率下降和便秘。研究人員迅速?gòu)木薮蟮幕衔飻?shù)據(jù)庫(kù)中篩選出23種排名靠前的化合物,以供后續(xù)研究。
在試管中,7種候選藥物具有所期望的活性。進(jìn)一步的研發(fā)將其中一種轉(zhuǎn)變成PZM21—— 一種作用于μ-阿片受體但無(wú)須激活β-arrestin的化合物。目前,總部位于舊金山、由Shoichet共同創(chuàng)建的生物技術(shù)公司Epiodyne正試圖基于這些發(fā)現(xiàn)開(kāi)發(fā)更加安全的止痛藥。Shoichet計(jì)劃利用相同方法尋找調(diào)節(jié)其他G蛋白偶聯(lián)受體(GPCR)的化合物。GPCR是一類據(jù)估測(cè)占到40%藥物靶點(diǎn)的蛋白家族。
他的團(tuán)隊(duì)還在利用由1億種化合物構(gòu)成的虛擬“星云圖”開(kāi)展類似試驗(yàn)。這些化合物此前從未被制造出來(lái),但應(yīng)該很容易合成。行業(yè)藥物開(kāi)發(fā)者也在測(cè)試這種方法:總部位于馬薩諸塞州劍橋市的生物技術(shù)公司Nimbus將擁有天然化學(xué)物質(zhì)特性的化合物整合進(jìn)分子對(duì)接的篩選。通常,要獲得天然化學(xué)物質(zhì),需要不辭辛苦地從諸如土壤等自然環(huán)境中收集。上述過(guò)程則避免了這一麻煩。不過(guò),它們能否促成新藥物尚無(wú)定論。
這些數(shù)據(jù)搜尋方法被不斷地嘗試和測(cè)驗(yàn),但涉及其中的計(jì)算機(jī)只能遵循腳本說(shuō)明。計(jì)算藥物開(kāi)發(fā)領(lǐng)域的最新前沿技術(shù)是機(jī)器學(xué)習(xí),即算法利用數(shù)據(jù)和經(jīng)驗(yàn)教會(huì)自己辨別哪種化合物同哪個(gè)靶點(diǎn)相結(jié)合,并且發(fā)現(xiàn)對(duì)人眼來(lái)說(shuō)不可見(jiàn)的模式。約有十幾家公司涌現(xiàn)出來(lái),并且創(chuàng)建了藥物尋找算法。它們通常和大型制藥公司合作,對(duì)它們進(jìn)行測(cè)試。
Exscientia首席執(zhí)行官Andrew Hopkins提出了一個(gè)強(qiáng)有力的案例,證實(shí)這些算法的威力。發(fā)現(xiàn)并優(yōu)化用于臨床前測(cè)試的候選藥物平均需要4.5年的時(shí)間,而藥劑師通常要合成上千種化合物,才能獲得有前景的先導(dǎo)化合物。即便這樣,它們最終進(jìn)入市場(chǎng)的幾率也非常小。Exscientia的方法——利用各種算法,包括一種令Sunovion研發(fā)主管們印象深刻的算法,可能將這一時(shí)間線縮短至一年,并且能使藥品研發(fā)活動(dòng)需要考慮的化合物數(shù)量大大減少。
2015年,Exscientia為總部位于日本大阪的住友制藥公司(Sunovion是其子公司)完成了一項(xiàng)為期12個(gè)月的藥物研發(fā)活動(dòng)。研究人員訓(xùn)練他們的人工智能工具尋找同時(shí)調(diào)節(jié)兩種GPCR的小分子,然后發(fā)現(xiàn)他們僅需要合成不到400種化合物,便能辨別出良好的候選藥物。隨后出現(xiàn)的藥物如今正準(zhǔn)備進(jìn)入治療精神疾病的臨床試驗(yàn)。從今年5月開(kāi)始,該公司同總部位于法國(guó)巴黎的賽諾菲和總部位于布倫特福德的葛蘭素史克簽署了金額達(dá)上億美元的協(xié)議。
總部位于加州圣布魯諾的人工智能藥物設(shè)計(jì)公司Numerate首席科技官Brandon Allgood介紹說(shuō),除了辨別先導(dǎo)化合物,機(jī)器學(xué)習(xí)算法還能幫助藥物開(kāi)發(fā)者盡早決定放棄哪些化合物。如果一種化合物無(wú)法在數(shù)月后通過(guò)毒性或者吸收測(cè)試,那么將其制造出來(lái)并且進(jìn)行測(cè)試是沒(méi)有意義的。Allgood表示,在人工智能的幫助下,僅需要幾毫秒便能決定它是否應(yīng)該“出局”。今年,Numerate已同制藥公司達(dá)成兩項(xiàng)協(xié)議,針對(duì)人工智能發(fā)現(xiàn)的藥物開(kāi)展面向心臟病和心律失?;颊叩呐R床試驗(yàn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03