
作者 | Daniel Faggella編譯 | CDA數(shù)據(jù)分析師
自2012年以來,很容易看到風(fēng)險投資,會議和與業(yè)務(wù)相關(guān)的“機器學(xué)習(xí)”查詢的廣泛普及-但大多數(shù)技術(shù)主管通常很難確定他們的業(yè)務(wù)可能將機器學(xué)習(xí)(ML)實際應(yīng)用于業(yè)務(wù)問題的位置。
隨著每周創(chuàng)建新的AI流行語,似乎很難掌握哪些應(yīng)用程序是可行的,哪些是炒作,夸張或騙局。
在本文中,我們將分解ML通常處理的業(yè)務(wù)問題的類別,并且還將提供可行的建議,以正確的方法和觀點開始ML計劃(即使這是您執(zhí)行的第一個此類項目)在您的公司)。
最重要的是,我們將參考真實的業(yè)務(wù)用例,以及來自我們的AI研究人員和執(zhí)行人員網(wǎng)絡(luò)的“如何用ML解決業(yè)務(wù)問題”的引用和觀點。到本文結(jié)尾,您將對ML是否可以很好地解決您當(dāng)前的任何業(yè)務(wù)挑戰(zhàn)有一個好主意。
*注意:在本文的底部,我以簡單語言列出了ML術(shù)語的基本詞匯表。如果您發(fā)現(xiàn)本文中您所不理解的短語或術(shù)語,請參閱下面的詞匯表,或者,如果您希望我們對本文中的概念更加清楚,請 [與我們聯(lián)系]
如果有可能構(gòu)建一套規(guī)則或“如果-則情景”來完全解決您的問題,那么可能根本就不需要ML。此外,如果沒有成功的先例可將機器學(xué)習(xí)應(yīng)用于您要解決的特定問題,那么這可能不是進入ML世界的最佳途徑。
出于說明目的,列出一些成熟的機器學(xué)習(xí)業(yè)務(wù)用例將很有幫助,以便您(讀者)可以提出自己的應(yīng)用程序構(gòu)想:
在經(jīng)驗豐富的數(shù)據(jù)科學(xué)專業(yè)人員中,“清潔數(shù)據(jù)勝于大數(shù)據(jù)”是一個常見的說法。如果您擁有數(shù)年前的大量業(yè)務(wù)數(shù)據(jù),則今天可能沒有任何意義,尤其是在基本業(yè)務(wù)流程逐年急劇變化的領(lǐng)域(例如移動電子商務(wù))中。如果您有大量的非結(jié)構(gòu)化數(shù)據(jù)和脫節(jié)數(shù)據(jù),那么您可能需要進行太多的“清理”工作,然后才能開始從收集的信息中學(xué)習(xí)。
UBER機器學(xué)習(xí)負責(zé)人Danny Lange曾經(jīng)建議剛開始機器學(xué)習(xí)的公司應(yīng)從對歷史數(shù)據(jù)應(yīng)用監(jiān)督的機器學(xué)習(xí)開始。查找已經(jīng)干凈且相對較新的數(shù)據(jù),并使用帶有標簽的培訓(xùn)數(shù)據(jù)開始尋找見解。
請注意,在瞬息萬變的領(lǐng)域,肯定需要更新的數(shù)據(jù)。例如,如果您為寵物用品運行上門送貨服務(wù),而您的應(yīng)用,價格,產(chǎn)品和服務(wù)范圍在過去六個月中發(fā)生了顯著變化,那么您需要的最新數(shù)據(jù)要比蒙大拿州出售房主保險的公司。如果數(shù)據(jù)與您當(dāng)前業(yè)務(wù)的相關(guān)趨勢和細微差別無關(guān),則不太可能收集預(yù)測價值。
雖然無監(jiān)督學(xué)習(xí)(請參閱下面的術(shù)語表)允許在不使用標簽的情況下實現(xiàn)廣泛的數(shù)據(jù)意義的應(yīng)用,但通常不建議公司在無監(jiān)督學(xué)習(xí)中首次應(yīng)用“跳入”機器學(xué)習(xí)。ML用例的低調(diào)成果很可能是從其歷史標記數(shù)據(jù)中產(chǎn)生的。以下是一些可能有助于讀者獲得新想法的示例:
ML可能被認為是一種“技能”,就像人們可以將其應(yīng)用于人類一樣。一種技能,可以根據(jù)經(jīng)驗進行動態(tài)調(diào)整,適應(yīng)和發(fā)展。由于這個原因,機器學(xué)習(xí)解決方案通常會在一定百分比的時間內(nèi)是不正確的,尤其是當(dāng)它是由新的或變化的刺激告知時。如果您的任務(wù)絕對不允許出現(xiàn)任何錯誤,則ML可能是該工作的錯誤工具。
不允許出現(xiàn)錯誤的應(yīng)用程序示例可能是旨在讀取發(fā)票或賬單金額然后支付該發(fā)票或賬單的應(yīng)用程序。一個字母或一個數(shù)字的差異可能意味著多付了您賬單原始金額的10倍(如果十進制被解釋為在錯誤的位置),或匯款給了錯誤的公司(如果發(fā)票公司名稱未正確注冊) 。
在上述情況下,某種程度的ML可能有助于“存儲”不同類型的賬單或發(fā)票,但是輸入付款金額并發(fā)送付款的最終決定可能需要負責(zé)任的人員。
作為一個有趣的警告,位于舊金山的一家名為Roger.ai的初創(chuàng)公司旨在利用自然語言處理和機器視覺來實現(xiàn)賬單和支付賬單,盡管它在匯款之前將人們拉入了循環(huán)。
為了獲得關(guān)于“為機器學(xué)習(xí)選擇業(yè)務(wù)問題”問題的更多觀點,我們決定與以前的AI播客訪談對象的網(wǎng)絡(luò)聯(lián)系,為我們的業(yè)務(wù)讀者提供更多指導(dǎo):
Ben Waber博士-麻省理工學(xué)院博士-Humanyze(人工智能技術(shù)的人分析公司)首席執(zhí)行官:
“ 任何具有硬數(shù)據(jù),可變性和大量示例的業(yè)務(wù)問題?!?/span>
Danko Nikolic博士-奧克拉荷馬大學(xué)博士學(xué)位-計算機科學(xué)公司的數(shù)據(jù)科學(xué)和BD&A:
“ 1。公司可以節(jié)省很多錢。
2.預(yù)測需要許多變量,它們之間復(fù)雜的非線性關(guān)系,在某些情況下是高度隨機的。因此,通常只有算法才能了解這些關(guān)系。光是人類就很難?!?/span>
Charles Martin博士-芝加哥大學(xué)博士-計算咨詢公司首席執(zhí)行官:
“ 最好的問題是存在一個龐大的歷史數(shù)據(jù)集,這些數(shù)據(jù)集既包含豐富的功能,又包含可以用于構(gòu)建的直接反饋以及可以輕松實施和測試的算法,這將降低運營成本, /或立即增加收入?!?/span>
Ronen Meiri博士-特拉維夫大學(xué)博士-DMWay首席技術(shù)官兼創(chuàng)始人
:“大多數(shù)企業(yè)的問題可以采用兩種機器學(xué)習(xí)方法妥善解決 1 日:‘什么可能會發(fā)生’ 和 2 次:“什么是...未來的預(yù)期值?”。
第一個是分類類型問題,其中包括對在許多其他用例中可能流失,違約,購買,出售的人進行分類。
第二個問題是期望值問題,該問題可以通過回歸解決,并且可以針對各種用例(如定價優(yōu)化和預(yù)測生命周期價值)提供準確的預(yù)測?!?/span>
彼得·沃斯(Peter Voss)-AGI創(chuàng)新公司首席執(zhí)行官:
(首先,彼得引用喬治·梅森大學(xué)教授羅賓·漢森博士的話:“優(yōu)秀的CS專家說:大多數(shù)認為自己想要高級AI / ML的公司實際上只需要對清理后的數(shù)據(jù)進行線性回歸。”)
“我認為大多數(shù)企業(yè)都沒有理由在ML / DL上進行投資(當(dāng)然,ML意味著很多事情)。 每個人都在談?wù)摰淖钋把貎?nèi)容需要大量數(shù)據(jù)和專業(yè)知識,并且是靜態(tài)的,即,當(dāng)數(shù)據(jù)或類別更改時,需要對其進行重新培訓(xùn)。”
線性回歸是最古老,最簡單且廣泛使用的機器學(xué)習(xí)模型之一。一些研究人員認為,至少在最初,許多中間預(yù)測問題可能只需要基本方法即可。圖片由MathWorks提供。
彼得的評論是恰當(dāng)?shù)?,不?yīng)掉以輕心。當(dāng)ML因其流行和流行而被人們搶走時,它不可能產(chǎn)生顯著的結(jié)果。找到最適合您的底線需求的工具;ML可能不是滿足業(yè)務(wù)或增長目標所需的解決方案。
這使我們進入了本指南的第二個主要部分:
在與查爾斯·馬?。–harles Martin)博士(灣區(qū)AI顧問)的場外對話中,他提到許多公司熱情地閱讀了有關(guān)ML的內(nèi)容,并決定“找到某種使用它的方法?!边@導(dǎo)致團隊沒有真正的動力?;蜃非螅ɑ虺兄Z的資源)以驅(qū)動實際結(jié)果。選擇一個非常重要的業(yè)務(wù)問題,并且似乎很有可能得到解決
UBER的Danny Lange從一開始就提到,有一個思維過程很可能會產(chǎn)生富有成果的機器學(xué)習(xí)用例思想:“如果我們只知道____?!?/span>
問問自己,您想知道哪些關(guān)鍵業(yè)務(wù)信息,但當(dāng)前無法訪問?也許是在了解最有可能產(chǎn)生最高客戶生命周期價值的潛在客戶來源,或者最能表明預(yù)期客戶流失的用戶行為。
想想要“饋送”您的算法的信息并不像假定的那么容易。機器學(xué)習(xí)算法雖然擅長識別相關(guān)性,但他們無法理解圍繞數(shù)據(jù)的事實,這些事實可能使數(shù)據(jù)變得相關(guān)或不相關(guān)。以下是“上下文”如何阻礙開發(fā)有效的ML解決方案的一些示例:
構(gòu)建ML解決方案需要在選擇算法,選擇數(shù)據(jù),清理數(shù)據(jù)以及在實際環(huán)境中進行測試時進行仔細的思考和測試。對于獨特而復(fù)雜的業(yè)務(wù)用例,沒有“開箱即用”的機器學(xué)習(xí)解決方案。即使對于極為常見的用例(推薦引擎,預(yù)測客戶流失),每個應(yīng)用程序也會有很大差異,并且需要迭代和調(diào)整。如果一家公司沒有進行長時間的修補就投入了ML項目,那么它可能永遠不會取得有用的結(jié)果。
我們再次聯(lián)系了我們的Emerj受訪者和共識受訪者網(wǎng)絡(luò),以獲取有關(guān)在企業(yè)中實施機器學(xué)習(xí)的意見和技巧。以下是引號的集合:
Ben Waber博士-麻省理工學(xué)院博士-Humanyze(人工智能技術(shù)的人分析公司)首席執(zhí)行官:
“ 您不能使用ML真空解決業(yè)務(wù)問題。確保您得到業(yè)務(wù)部門負責(zé)人的支持,以根據(jù)分析做出具體更改。”
Danko Nikolic博士-奧克拉荷馬大學(xué)博士學(xué)位-計算機科學(xué)公司的數(shù)據(jù)科學(xué)和BD&A:
“ 企業(yè)在使用ML時常犯的最常見錯誤是,他們認為ML解決方案是一站式過程:他們將數(shù)據(jù)發(fā)送給數(shù)據(jù)科學(xué)家,而數(shù)據(jù)科學(xué)家則將模型返回。與此相反,找到好的ML解決方案是一個反復(fù)的過程,涉及研究,試驗和錯誤,試驗,與業(yè)務(wù)專家交談等。
ML永遠不可能成為商品。ML的成功在很大程度上取決于做到這一點的人的知識,技能和奉獻精神?!?/span>
Charles Martin博士-芝加哥大學(xué)博士-計算咨詢公司首席執(zhí)行官:
“在您掌握要做什么之前,請避免建立大規(guī)模的基礎(chǔ)架構(gòu)。您可以輕松地花費6個月到一年的時間來設(shè)置Hadoop和Spark,而不會看到任何投資回報。
如果您5%的數(shù)據(jù)正確且有用,您將很幸運。您需要設(shè)計一個實驗,以識別低垂的果實并找出所需的數(shù)據(jù)。您可以在高內(nèi)存的AWS節(jié)點上構(gòu)建算法。
將算法放入實時環(huán)境中,并盡早對其進行測試。不要構(gòu)建嘗試完整的生產(chǎn)系統(tǒng)。記住,ML是關(guān)于數(shù)學(xué)的,而不是編碼!您想測試一下。運行足夠的示例來消除問題,但不要太小,以至于統(tǒng)計數(shù)據(jù)毫無意義?!?/span>
Ferris Jumah-以前曾在LinkedIn擔(dān)任ML-灣區(qū)ML顧問:
“盡快獲取數(shù)據(jù)驅(qū)動。機器學(xué)習(xí)不是免費提供的。您需要圍繞數(shù)據(jù)建立直覺,如何衡量業(yè)務(wù)并了解客戶,不僅將度量值鏈接,還將洞察力鏈接到?jīng)Q策制定。記錄所有內(nèi)容,構(gòu)建存儲和處理系統(tǒng),確保它們可訪問,對產(chǎn)品進行深入分析和盡可能多的實驗,并在盡可能多的產(chǎn)品中內(nèi)置智能。
在這一點上,消費者期望個性化和“智能”功能。建立它們,向他們學(xué)習(xí),并確保您擁有適當(dāng)?shù)姆答仚C制。最后,雇用和投資對您的問題和業(yè)務(wù)充滿熱情的數(shù)據(jù)人員?!?/span>
共識(在上面引用的數(shù)量有限,以及與具有業(yè)務(wù)頭腦的數(shù)據(jù)科學(xué)家進行的其他數(shù)十次對話中)是,機器學(xué)習(xí)不像營銷自動化軟件那樣僅僅是“工具”。任何擁有良好管理者并獲得社區(qū)大學(xué)學(xué)士學(xué)位的人都可以選擇“持續(xù)聯(lián)系”,甚至可以選擇(甚至可以稍作修改并致電支持熱線)Marketo或Hubspot并提高公司價值。
應(yīng)用機器學(xué)習(xí)的迭代,多方面過程沒有簡單的捷徑。圖像信譽Microsoft的CortanaIntelligence。
機器學(xué)習(xí)還沒有出現(xiàn)在一個整潔的盒子中,而價值卻是由刻苦的思考,實驗設(shè)計以及(在某些情況下)刻苦的數(shù)學(xué)創(chuàng)造的。在Google和YouTube上花費一些時間,您可以了解如何為您的企業(yè)設(shè)置DropBox。通過機器學(xué)習(xí)預(yù)測整個客戶群的流失率嗎?不一樣的游戲。
準備從ML中獲得業(yè)務(wù)價值意味著要有受過訓(xùn)練的人才,專家指導(dǎo)和(通常)巨大的“數(shù)據(jù)清理”時期-而且,正如馬丁博士在上面恰當(dāng)?shù)刂赋龅哪菢?,這沒有保證一定會贏。如果Google,Amazon和Facebook能夠讓他們的實習(xí)生建立ML系統(tǒng),他們真的會花費數(shù)百萬美元從學(xué)者中挖走世界頂級AI人才來為他們工作嗎?
雖然機器學(xué)習(xí)不是一個簡單的設(shè)置,但也不是任何有遠見的企業(yè)都可以離開桌面太長時間?!皳u滾明星”技術(shù)公司通過機器學(xué)習(xí)獲得的效率是巨大的,而灣區(qū)的初創(chuàng)企業(yè)不僅因為“機器學(xué)習(xí)”是一個流行詞而獲得了資金,還因為它們中的許多公司業(yè)務(wù)強大而有力案件。
感興趣的讀者可能會從我們最近對26位機器學(xué)習(xí)/人工智能研究人員達成的共識中受益,我們在其中提出了以下問題:“機器學(xué)習(xí)應(yīng)首先應(yīng)用于商業(yè)領(lǐng)域嗎?” 該信息圖表特色充分體現(xiàn)了本文中強調(diào)的許多觀點。
高管們面臨的最終問題仍然是:我們什么時候才能擁有(a)認真投資于機器學(xué)習(xí)所需的資源,以及(b)合法的用例,該用例始于試圖找到真正的商業(yè)價值,而不是從“試圖找到一種方法”這是一個無法為您完成的思考過程,但是我們希望本文能夠幫助您了解您的觀點并為您提供將來借鑒的資源。
除非另有說明,否則定義均來自維基百科。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03