
作者 | Susan Malaika編譯 | CDA數(shù)據(jù)分析師
了解AutoAI如何實現(xiàn)數(shù)據(jù)準備,模型開發(fā),功能工程和超參數(shù)優(yōu)化的自動化。
近年來,數(shù)據(jù)驅動的決策已成為企業(yè)成功的關鍵。使用技術進行數(shù)據(jù)驅動的實踐有很多好處,包括優(yōu)化生產(chǎn)和制造,減少客戶流失,減少數(shù)據(jù)冗余,增加利潤和創(chuàng)造競爭優(yōu)勢。因此,隨著組織采用以數(shù)據(jù)為依據(jù)的決策方法,數(shù)據(jù)科學已變得流行起來。數(shù)據(jù)科學家需要廣泛的技能,包括數(shù)學和統(tǒng)計,機器學習和人工智能(AI),數(shù)據(jù)庫和云計算以及數(shù)據(jù)可視化。但是,很難招募到足夠的數(shù)據(jù)科學家,尤其是具有足夠領域知識的專家,例如銀行,醫(yī)療保健,人力資源,制造業(yè)和電信公司,對于要執(zhí)行的任務和要做出的決定的崗位往往是人手不夠的。與此同時,數(shù)據(jù)科學正日益成為一種素養(yǎng),許多工作角色(包括員工沒有很強的編碼技能的角色)都需要了解數(shù)據(jù)科學技術。
因此,在與開發(fā)新工具以提高數(shù)據(jù)科學家工作效率的同時,也出現(xiàn)了一些技術開發(fā),這些開發(fā)的重點是創(chuàng)建軟件,使數(shù)據(jù)科學工作流程中的任務實現(xiàn)自動化,例如Google的AutoML,H2O,DataRobot,以及Auto-sklearn和TPOT等開源庫。其中許多系統(tǒng)都基于scikit-learn Python機器學習庫。它們是人工智能的例子,因為人工智能技術正被用于構建人工智能解決方案。$IBM^?$為人工智能技術生產(chǎn)了最先進的人工智能,并以AutoAI的形式將其整合到其產(chǎn)品組合中。
AutoAI是IBM Cloud Pak for Data的標準配置,可在混合多云環(huán)境中使用和擴展。AutoAI自動執(zhí)行數(shù)據(jù)準備,模型開發(fā),特征工程和超參數(shù)優(yōu)化。AutoAI AI生命周期管理在入門和探索要問的問題時提供了很大的幫助。然后,它支持后續(xù)實驗,模型修改和調整步驟。通過IBM Watson?Studio,也可以在不使用Cloud Pak for Data的情況下使用AutoAI。
AutoAI是人工智能一個令人興奮的例子。AutoAI工具會自動分析您的數(shù)據(jù)并生成針對預測建模問題定制的候選模型方案。隨著AutoAI算法了解有關您的數(shù)據(jù)集的更多信息,會發(fā)現(xiàn)最適合您的問題的數(shù)據(jù)轉換,評估器算法和參數(shù)設置,這些模型方案會隨著時間的推移而創(chuàng)建。結果會顯示在一個排行榜上,顯示自動生成的模型方案,并根據(jù)問題優(yōu)化目標進行排序,從而鼓勵您進行進一步的實驗。
數(shù)據(jù)科學通常涉及提出更好的問題,例如,確定適當?shù)膶傩裕ㄟ^探索這些屬性是預測結果。這意味著需要構建許多不同的模型,并且需要選擇不同的特征并應用不同的超參數(shù)去優(yōu)化模型。AutoAI中的選項可以通過加快人工智能流程或提供人員參與點來探索更好的問題。
整個AutoAI流程可在數(shù)分鐘內自動完成(取決于數(shù)據(jù)量和其他考慮因素),而無需人工干預,創(chuàng)建出基礎解決方案并使之適合初學者。然而,這個領域的專家可以輕松地與AutoAI進行交互,來將他們的知識整合到自動化方案中,以改進生成的模型并根據(jù)其特定需求進行定制。
專家可以在AutoAI流程中手動指定他們自己的偏好以使其符合該領域的知識要求,下面是幾個可供選擇的人機交互的點的示例:
有人聲稱,由人工智能構建的人工智能比人類更出色。Dakuo Wang博士及其團隊最近進行的一項定性研究有許多數(shù)據(jù)科學家參與。一些參與者被要求使用IBM AutoAI構建模型。其他參與者在Jupyter Notebook環(huán)境中使用Python庫操作完成相同的任務。該研究表明,與AutoAI一起工作的數(shù)據(jù)科學家可以顯著更好地構建模型(ROC- AUC得分為0.92對0.90),更快(4.4分鐘對15分鐘),人為錯誤更少(100%對46.7%的參與者在指定的時間內成功完成了建模任務)。這項研究還揭示了數(shù)據(jù)科學家與AutoAI系統(tǒng)的互動的態(tài)度, 受訪者認為,數(shù)據(jù)科學家與自動化AI系統(tǒng)之間存在協(xié)作關系,而不是競爭關系。
AutoAI的設計目的是在加快實驗過程的同時,融入人類的反饋并增強數(shù)據(jù)科學實踐。這使得沒有較強編碼技能的個人可以探索不同的選項,確定更好的問題,選擇最合適的模型,然后將模型轉移到項目部署中。
AutoAI的儀表板促進了人機交互,而不是取代人機交互,從而使數(shù)據(jù)科學家和領域專家能夠做出明智的選擇并為模型創(chuàng)建做出貢獻。在IBM AutoAI系統(tǒng)的以下圖形界面中,您可以看到如何構建八個模型(頂部可視化)以及根據(jù)所選度量(ROC-AUC)對模型進行排名的排行榜(底部列表)。在數(shù)十種算法中,AutoAI選擇了邏輯回歸和隨機森林這兩種算法,并為每種算法生成了四個模型。在全部使用邏輯回歸算法的四個模型中,模型P2包括一個超參數(shù)優(yōu)化步驟,該步驟將其與P1相區(qū)別。模型P3包括特征工程步驟,而P4包括第二個HPO步驟。
IBM研究人員將這種與AI系統(tǒng)一起工作的模式稱為“Human-AI Collaboration”,即人與人工智能系統(tǒng)在特定任務上作為合作伙伴一起工作,在這種協(xié)作中,雙方共同貢獻出互補的不可或缺的能力。
AutoAI是IBM Cloud Pak for Data的標準配置,可在混合多云環(huán)境中使用和擴展。AutoAI有很多好處,特別是在支持人們更好地理解和預測其特定業(yè)務或專業(yè)方面。這些好處包括:
該技術正在迅速變化,因此需要繼續(xù)關注遷移學習,業(yè)務限制等方面的進一步發(fā)展。
Watson Studio Cloud中的AutoAI現(xiàn)已上市。作為IBM Cloud Pak for Data一部分的AutoAI將于今年晚些時候上市。
Dakuo Wang是位于馬薩諸塞州劍橋的IBM Research AI的一名研究科學家。他的研究在人機交互(HCI)和人工智能(AI)之間的交集?,F(xiàn)在,他領導著一組研究人員,工程師和設計師來為IBM AutoAI進行研究和設計用戶體驗,這是一種使端到端(一端輸入原始數(shù)據(jù),一端輸出結果,只關心輸入和輸出,中間步驟全不管的方法)機器學習模型自動化的解決方案。通過研究用戶如何與各種AI系統(tǒng)(例如AutoAI,聊天機器人和臨床決策支持系統(tǒng)(CDSS))一起協(xié)作,他提出了“人與AI協(xié)作”作為研究和設計與人類協(xié)作作的AI系統(tǒng)的新框架。加入IBM Research之前,Dakuo Wang獲得了博士學位。加州大學歐文分校的信息和計算機科學碩士和碩士學位(MS )獲得巴黎中央電子信息系統(tǒng)信息系統(tǒng)學位,并獲得北京工業(yè)大學計算機科學學士學位。他曾在法國,中國和美國擔任工程師,設計師和研究員。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03