
作者 | CDA數(shù)據(jù)分析師
在過去的五年中,我們已經與醫(yī)療保健和制藥業(yè)的許多領導者進行了交談,而對于AI而言,醫(yī)療保健和制藥業(yè)領導者報告的最緊迫的挑戰(zhàn)是他們不確定如何簡化和構建數(shù)據(jù)結構。一種讓他們建立機器學習模型的方式。醫(yī)療保健公司陷入了其潛在的AI計劃的數(shù)據(jù)整合階段,而一個又一個的供應商試圖將其出售給該公司可能還沒有準備就緒的新應用程序。
人工智能和機器學習項目可能需要幾個月的時間才能啟動。如果有的話,許多制藥公司在發(fā)布AI產品后半年或更長的時間內就不會看到投資回報率。因此,對于制藥公司而言,重要的是清理并存儲其數(shù)據(jù),以使其“可機讀”,并隨時準備將其輸入到機器學習算法中。無論公司內部生產還是從AI供應商處購買產品,這都可能為他們節(jié)省時間和金錢(甚至數(shù)千美元)。
騰訊醫(yī)療大數(shù)據(jù)實驗室主任Chenzhig Chen在接受我們的采訪時說,在醫(yī)療行業(yè)應用機器學習時處理數(shù)據(jù)(并將其數(shù)字化)的重要性:
如果您查看該行業(yè),你會發(fā)現(xiàn)數(shù)據(jù)還不存在,數(shù)字化還沒有準備好。因此,對于AI來說,要使真正的大數(shù)據(jù)真正騰飛,這個基礎必須要有所準備。在大數(shù)據(jù)領域,我們通常會說您80%的時間或研究花費在數(shù)據(jù)上,然后20%的時間實際上在模型,算法上。
沒有數(shù)據(jù)和數(shù)字化的基礎,這很難,或者幾乎不可能從中獲得真正的模型……如果沒有數(shù)字化,而沒有整個過程在線和數(shù)字化,您將如何實現(xiàn)或將如何實現(xiàn)?人工智能帶回企業(yè)的價值?
在此報告中,我們討論了制藥公司如何能夠匯總和清除其大量數(shù)據(jù),以便它們可以利用它來解決業(yè)務問題并通過AI改善運營,包括:
我們從數(shù)據(jù)集中開始我們的報告。
數(shù)據(jù)集中化
制藥公司的結構化大數(shù)據(jù)可能存儲在某種數(shù)據(jù)倉庫中。制藥公司還可以在許多地方存儲非結構化數(shù)據(jù),本質上是本質上不是機器可讀的數(shù)據(jù),例如匿名電子病歷(EMR)記錄和醫(yī)學掃描數(shù)據(jù)庫。許多軟件供應商提供服務來幫助制藥公司以一種允許將其饋送到機器學習算法的方式來理解其所有傳入數(shù)據(jù)流。通常,進入制藥行業(yè)的公司似乎也提供API或類似的集成,從而允許客戶在云或公司計算機上運行機器學習模型。
提供大數(shù)據(jù)集中化解決方案的供應商通常也在AI和數(shù)據(jù)分析市場中。他們傾向于提供與數(shù)據(jù)集中化分開的數(shù)據(jù)分析解決方案(例如預測分析),但是某些產品可能包括兩者。在制藥行業(yè)中,這些供應商最常要求解決的業(yè)務問題是臨床試驗優(yōu)化和藥物發(fā)現(xiàn)。
向藥品公司提供數(shù)據(jù)集中化解決方案的一家供應商是GrayMatter。他們還提供了一個平臺,用戶可以在該平臺上可視化商業(yè)智能分析。GrayMatter沒有提供任何案例研究來顯示制藥公司通過其軟件獲得的成功, 但該公司將輝瑞和Strides Arcolab列為過去的客戶。我們選擇在此報告中討論GrayMatter,因為他們的團隊似乎很有可能具有AI和機器學習方面的經驗,這對于希望使用GrayMatter解決方案來集中其數(shù)據(jù)以供機器學習使用的制藥公司來說是個好兆頭。
例如,在GrayMatter平臺上集中和結構化數(shù)據(jù)可能有助于制藥公司更有效地分析匿名的EMR記錄,從而縮小可能的患者范圍,以進行臨床試驗。
諸如此類的數(shù)據(jù)集成咨詢和服務適用于需要集中其數(shù)據(jù)以便為他們可能要使用的任何類型的AI解決方案做好準備的公司。在下一部分中,我們將討論制藥公司大數(shù)據(jù)的預處理以及如何為特定的機器學習用例準備數(shù)據(jù)。
數(shù)據(jù)預處理
在將所有必要數(shù)據(jù)集中之后,制藥公司可能需要準備某些數(shù)據(jù)集以用于AI和機器學習計劃。制藥公司的非結構化數(shù)據(jù)可能包括藥物分子成像或EMR數(shù)據(jù)。例如,此類數(shù)據(jù)需要先進行標記,然后再輸入到深度學習算法中,以尋求“學習”以對未標記圖像進行分類或填寫空白EMR表單。
對于來自MRI或高級顯微鏡的成像數(shù)據(jù),必須根據(jù)機器學習模型要檢測的對象和實體對每個圖像進行電子標記。例如,將需要訓練顯微血液成像軟件以辨別不同類型的血細胞以及每個圖像中存在多少個血細胞。還可以訓練用于血液成像的機器學習模型,以檢測血液中某些藥物或治療的不良反應和不良反應。
EMR數(shù)據(jù)通常由醫(yī)師書寫或指示。記錄包括有關患者及其患病經歷的詳細信息,以及這些疾病的過去用藥和治療方法以及患者對這些疾病的反應方式。定位與臨床試驗資格相關的患者信息的自然語言處理應用程序是目前制藥業(yè)AI的重要解決方案之一。
如果公司想要構建或購買自然語言處理應用程序以篩選IDC-10代碼的匿名EMR記錄,以查找可能適合臨床試驗的患者,則EMR記錄需要標記為包含特定IDC-例如10個代碼或其他代碼。BioSymetrics是一家提供數(shù)據(jù)組織和標簽,清潔以及來自不同來源的生物醫(yī)學和醫(yī)療數(shù)據(jù)分析的供應商。他們的Augusta應用程序使用機器學習來加快在諸如藥物發(fā)現(xiàn),臨床試驗優(yōu)化和精密醫(yī)學等業(yè)務領域中部署AI應用程序的過程。
據(jù)稱,BioSymetrics的SymetryML機器學習引擎可以評估原始數(shù)據(jù)的必要處理方法,以便在進一步的機器學習開發(fā)和AI應用中使用??梢詫⒃紨?shù)據(jù)格式化為圖像,基因組統(tǒng)計數(shù)據(jù),流數(shù)據(jù)和觀察到的化合物。
SymetryML可以處理來自MRI和fMRI的醫(yī)學成像數(shù)據(jù)。它還可以處理來自EKG的數(shù)字數(shù)據(jù),遺傳學,蛋白質組學和來自FitBit或智能手表等可穿戴設備的IoT數(shù)據(jù)。機器學習模型還能夠處理EMR格式的信息,從而使其能夠組合來自各種非結構化來源的數(shù)據(jù)以開發(fā)更好的產品和處理方法。
將化合物數(shù)字化表示為數(shù)據(jù)時,將用字母數(shù)字字符串表示該文本,可以將其保存以備將來識別并用于機器學習模型訓練。這些文本鏈是通過數(shù)學公式找到的,該數(shù)學公式可以拍攝分子的圖像和圖形表示并將其轉變?yōu)槲ㄒ坏拇a行。這些代碼被稱為IUPAC化學標識符(IChIs)。
圖:腦部掃描顯示受基因變異影響的區(qū)域
BioSymetrics在其網站上沒有任何演示或案例研究,但提供了有關其軟件如何幫助制藥和生命科學公司的示例。這些例子之一突出了奧古斯塔(Augusta)如何在12分鐘內分析155名患者中與某種疾病相關的120萬患者變異。然后,該公司能夠比較其遺傳變異的醫(yī)學圖像屬性。 圖2突出顯示了大腦的不同區(qū)域,這些區(qū)域受個體是否具有遺傳變異的影響更大。
圖:由Biosymetrics提供的具有和不具有基因變異的患者的比較
該示例指出,在分析中發(fā)現(xiàn)其中一種遺傳變異與自閉癥有顯著關聯(lián)。然后,該公司據(jù)稱可以根據(jù)大腦各個區(qū)域內的偏差,確定與給定疾病相關的不同病癥之間的差異,以及誰擁有和沒有該變異。
藥品營銷大數(shù)據(jù)
大數(shù)據(jù)在制藥行業(yè)中發(fā)揮特別重要作用的領域是向醫(yī)療保健網絡,零售商和客戶銷售其產品和治療方法。開展新的營銷活動,跟蹤ROI和銷售統(tǒng)計數(shù)據(jù)以及管理銷售團隊,都是可以利用利用大數(shù)據(jù)的AI解決方案解決的所有業(yè)務問題。
與藥品營銷中的數(shù)據(jù)科學計劃最相關的數(shù)據(jù)源如下:
這些不同類型的數(shù)據(jù)可能需要使用大型數(shù)據(jù)存儲設備以及可能的機器學習解決方案(例如GrayMatter的解決方案)進行集中化。另外,可能需要對來自過去營銷活動的書面信息和歷史市場狀況信息進行預處理,以便機器學習模型能夠識別它。尚不清楚以前提到的BioSymetrics解決方案是否能夠處理這些特定類型的營銷數(shù)據(jù)。
Complexica是一家澳大利亞軟件供應商,提供稱為Larry the Digital Analyst的預測分析解決方案。據(jù)稱該軟件能夠為銷售率,市場投資和市場狀況(例如季節(jié)性需求的上升和下降)創(chuàng)建預測模型。還要進行廣告宣傳,以根據(jù)區(qū)域的大小,將哪些銷售代表分配給哪個區(qū)域以及每個區(qū)域的地理位置來優(yōu)化銷售區(qū)域映射。
圖:Larry,數(shù)字分析師的價值主張
數(shù)字分析師Larry充當Complexica的AI平臺,因為它是他們每個商業(yè)智能解決方案的AI部分。左圖詳細說明了Complexica軟件解決方案中的哪些軟件利用了數(shù)字分析師Larry背后的機器學習模型。尚不清楚Complexica的電子商務推薦引擎產品是否也利用了實際的AI推薦引擎,該引擎需要與數(shù)字分析師Larry的預測分析能力分開存在。
盡管該公司沒有任何案例研究,但他們與輝瑞公司合作以幫助他們對銷售,營銷投資和營銷條件進行建模,在AI領域引起了極大關注。輝瑞選擇了Complexica的假設仿真器和優(yōu)化器作為他們的分析解決方案,這使他們能夠利用其營銷和銷售數(shù)據(jù)來告知他們的業(yè)務決策。
顯然,制藥公司擁有的大數(shù)據(jù)存儲可用于開發(fā)有用的機器學習模型,以改善制藥業(yè)務運營。盡管營銷是利用企業(yè)數(shù)據(jù)的最清晰的業(yè)務領域,但制藥公司也可以將其精細的醫(yī)學數(shù)據(jù)用于臨床試驗和藥物發(fā)現(xiàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03