
回顧與展望丨數(shù)據(jù)科學(xué) 機(jī)器學(xué)習(xí):2017年的主要發(fā)展和2018年的關(guān)鍵趨勢(shì)
KDnuggets邀請(qǐng)了數(shù)據(jù)科學(xué)相關(guān)領(lǐng)域杰出的代表人物對(duì)2017年的主要發(fā)展和2018年的趨勢(shì)進(jìn)行了總結(jié)和預(yù)測(cè)。主要內(nèi)容涉及到 AI 、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、安全、AlphaGo Zero等等。
Kirk D. Borne
BoozAllen的首席數(shù)據(jù)科學(xué)家,天體物理學(xué)博士。數(shù)據(jù)科學(xué)和大數(shù)據(jù)領(lǐng)域的影響者。
回顧 2017
在2017年,技術(shù)成熟度曲線(Technology Hype Cycle)的中心位置由原來(lái)的大數(shù)據(jù)漸漸被 AI 取代。媒體和從業(yè)者對(duì) AI 的關(guān)注在正面新聞,比如越來(lái)越強(qiáng)大的機(jī)器學(xué)習(xí)算法和 AI 在汽車(chē)、醫(yī)療影像、金融服務(wù)等行業(yè)的應(yīng)用;以及負(fù)面新聞,關(guān)于機(jī)器將搶走人類(lèi)工作的威脅。
我們還見(jiàn)證了數(shù)據(jù)方面創(chuàng)新的發(fā)展,包括更多地使用API,即服務(wù)提供、數(shù)據(jù)科學(xué)平臺(tái)、深度學(xué)習(xí),以及云機(jī)器學(xué)習(xí)服務(wù)。大數(shù)據(jù)、機(jī)器學(xué)習(xí)和 AI 的專(zhuān)業(yè)應(yīng)用,包括機(jī)器智能、規(guī)范性分析、行為分析和物聯(lián)網(wǎng)。
展望 2018
在2018年,我們還需要關(guān)注 AI 的其他方面。比如 AI 的價(jià)值,衡量它的投資回報(bào)率,讓其可以實(shí)際操作。
主要的發(fā)展領(lǐng)域與2017年沒(méi)有太大差別,主要包括過(guò)程自動(dòng)化、機(jī)器智能、客戶(hù)服務(wù)。我們還將見(jiàn)證物聯(lián)網(wǎng)的日益成熟,包括更強(qiáng)大的安全特性、模塊化平臺(tái)、傳感器數(shù)據(jù)流的AP等。在2018年,更多的從業(yè)人員將面對(duì)挑戰(zhàn),向持懷疑態(tài)度的公眾傳達(dá) AI 的好處。
Tom Davenport
巴布森學(xué)院信息技術(shù)與管理專(zhuān)業(yè)的杰出教授,國(guó)際分析研究所聯(lián)合創(chuàng)始人,麻省理工學(xué)院數(shù)字經(jīng)濟(jì)學(xué)的研究員,德勤分析的高級(jí)顧問(wèn)。
回顧 2017
企業(yè) AI 成為主流,許多大型的知名公司正在進(jìn)行 AI 或機(jī)器學(xué)習(xí)。一些公司擁有超過(guò)50個(gè)用到各種技術(shù)的項(xiàng)目。大型供應(yīng)商開(kāi)始轉(zhuǎn)為開(kāi)源、自己動(dòng)手的項(xiàng)目類(lèi)型。當(dāng)然,這意味著公司必須提高其數(shù)據(jù)科學(xué)技能。
機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)集成,數(shù)據(jù)分析和數(shù)據(jù)管理中之前存在的挑戰(zhàn)現(xiàn)在能通過(guò)機(jī)器學(xué)習(xí)解決。通過(guò)勞動(dòng)密集型方法對(duì)數(shù)據(jù)進(jìn)行集成和管理正在被替換,至少是通過(guò)不同數(shù)據(jù)庫(kù)中相似數(shù)據(jù)元素的“概率匹配”來(lái)實(shí)現(xiàn)的。這能夠減少整合數(shù)據(jù)的時(shí)間。
開(kāi)放源代碼的企業(yè)接受開(kāi)源,傳統(tǒng)的銀行、保險(xiǎn)和醫(yī)療等行業(yè),正在積極地接受開(kāi)源分析、 AI 和數(shù)據(jù)管理軟件。
展望 2018
我們已經(jīng)進(jìn)入了“后算法”時(shí)代。之前分析師和數(shù)據(jù)科學(xué)家需要一定的知識(shí)來(lái)確定使用哪種算法。但是,分析和機(jī)器學(xué)習(xí)過(guò)程的自動(dòng)化能夠思考100種以上的不同算法。重要的是模型的效果和整體表現(xiàn)。
獨(dú)立的 AI 創(chuàng)業(yè)公司的吸引力開(kāi)始減弱。在風(fēng)險(xiǎn)投資基金的推動(dòng)下,過(guò)去幾年中成立了數(shù)百家 AI 創(chuàng)業(yè)公司。當(dāng)中大多數(shù)解決的是較小的問(wèn)題。然而,即使能夠有效地運(yùn)作,能夠與現(xiàn)有流程和系統(tǒng)集成是其主要挑戰(zhàn)。因此,成熟的企業(yè)更傾向于開(kāi)發(fā)自己的 AI “微服務(wù)”,這些服務(wù)相對(duì)更容易集成,或者從那些將 AI 嵌入到交易系統(tǒng)的供應(yīng)商購(gòu)買(mǎi)。
Jill Dyche
SAS Best Practice的副總裁,暢銷(xiāo)商業(yè)書(shū)籍的作者。
回顧 2017
如今幾乎每個(gè)人都會(huì)應(yīng)用到 AI 和機(jī)器學(xué)習(xí)。2017年,許多供應(yīng)商都在開(kāi)發(fā)自己的 AI 產(chǎn)品。
展望 2018
在2018年,商業(yè)對(duì)話和案例中,AI/ML方面會(huì)顯著增長(zhǎng)。這是因?yàn)槠髽I(yè)有許多業(yè)務(wù)問(wèn)題需要解決,管理者不關(guān)心神經(jīng)網(wǎng)絡(luò)是否要處理稀疏的數(shù)據(jù);對(duì)自然語(yǔ)言處理中的詞匯推理挑戰(zhàn)。相反,他們想要加速供應(yīng)鏈,知道客戶(hù)下一步想做什么,然后簡(jiǎn)單地告訴電腦他們想要什么。這是一種規(guī)范性分析,那些能夠以簡(jiǎn)便的方式解決該問(wèn)題的供應(yīng)商能夠笑到最后。
Carla Gentry
Analytical Solution的數(shù)據(jù)科學(xué)家
回顧 2017
2017年,每個(gè)人都開(kāi)始討論機(jī)器學(xué)習(xí)、AI 和預(yù)測(cè)分析。但實(shí)際上許多這些公司,供應(yīng)商只是熱衷于這些熱詞,而并沒(méi)有他們宣稱(chēng)的相關(guān)背景。在這些領(lǐng)域的經(jīng)驗(yàn)需要時(shí)間和才干,而不僅僅是盲目的呼吁行動(dòng)??傊?,經(jīng)驗(yàn)才是最重要的!
展望 2018
2018年,我們需要關(guān)注數(shù)據(jù)科學(xué)和預(yù)測(cè)分析的領(lǐng)導(dǎo)者。不是因?yàn)檫@很熱門(mén),而是因?yàn)檫@能給你的企業(yè)帶來(lái)巨大的變化。
對(duì)招聘進(jìn)行預(yù)測(cè)可以節(jié)省數(shù)百萬(wàn)人的成本;AI 和機(jī)器學(xué)習(xí)可以在幾秒鐘內(nèi)完成你需要幾天去做的事情。技術(shù)可以把我們提升到新的高度,但作為數(shù)據(jù)科學(xué)家,需要通過(guò)法律和社會(huì)的基本道德。
Bob E. Hayes
研究人員,作家,Business Over Broadway的出版商,組織心理學(xué)博士。
回顧 2017
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)越來(lái)越多地應(yīng)用于各種行業(yè)和領(lǐng)域。在2017年,我們目睹了 AI 的巨大進(jìn)步。雖然之前深度學(xué)習(xí)模型需要大量的數(shù)據(jù)教算法,但是神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)表明,創(chuàng)建高性能的算法時(shí)并不需要數(shù)據(jù)集。DeepMind采用了這些技術(shù),開(kāi)發(fā)了Alpha Go Zero,這更優(yōu)于之前版本的算法。
展望 2018
隨著 AI 在刑事司法、金融、教育等領(lǐng)域的持續(xù)發(fā)展,我們將需要建立算法標(biāo)準(zhǔn),用來(lái)評(píng)估其不準(zhǔn)確性和偏差。包括建立 AI 的使用規(guī)則(例如,避免決策中的暗箱操作),并理解深度學(xué)習(xí)算法如何做出決定。
數(shù)據(jù)中心的安全漏洞將繼續(xù)攀升,即使互聯(lián)網(wǎng)時(shí)代出現(xiàn)的公司(例如imgur, Uber)。因此,我們將看到安全措施方面的改革的,將增加區(qū)塊鏈的可見(jiàn)性作為一種可行的方式,用來(lái)改善公司如何獲得其選區(qū)的數(shù)據(jù)。
Gregory Piatetsky-Shapiro
KDnuggets總裁,數(shù)據(jù)科學(xué)家,KDD和SIGKDD會(huì)議(知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘專(zhuān)業(yè)組織)的聯(lián)合創(chuàng)始人。
回顧 2017
·AlphaGo Zero可能是2017年 AI 最重要的研究進(jìn)展。
· 數(shù)據(jù)科學(xué)方面自動(dòng)化的增長(zhǎng),提供了更多提供自動(dòng)化工具的機(jī)器學(xué)習(xí)平臺(tái)。
· AI 的輿論熱度和期望的增長(zhǎng)甚至比 AI 和深度學(xué)習(xí)的發(fā)展還快。
展望 2018
· GDPR(歐洲通用數(shù)據(jù)保護(hù)條例)將在2018年5月25日生效,這將對(duì)數(shù)據(jù)科學(xué)產(chǎn)生重大影響,其中包括解釋的權(quán)利(你的深度學(xué)習(xí)方法是否可以解釋為什么某人被拒絕貸款等),以及防止偏見(jiàn)和歧視。
· 谷歌 DeepMind 團(tuán)隊(duì)將跟進(jìn)AlphaGo Zero的驚人結(jié)果,并實(shí)現(xiàn)另一個(gè)強(qiáng)大的性能。在幾年前,許多人認(rèn)為這是計(jì)算機(jī)無(wú)法做到的。
(注: DeepMind 取得的另一個(gè)突破進(jìn)展發(fā)生在2017年12月,AlphaZero在4個(gè)小時(shí)內(nèi)就能熟練掌握國(guó)際象棋,同樣的自我博弈學(xué)習(xí)程序可以在國(guó)際象棋、圍棋和日本將棋方面達(dá)到超人般的表現(xiàn)。)
·我們將會(huì)看到更多的自動(dòng)駕駛汽車(chē)的發(fā)展,包括首次出現(xiàn)的問(wèn)題正在被解決(比如拉斯維加斯的無(wú)人駕駛飛機(jī),一開(kāi)始不知道如何讓道,但之后能夠讓道)。
· AI 的泡沫將繼續(xù)存在,但我們將看到重組和整合的跡象。
Paul Gearan,Heather Allen,Karl Rexer
Rexer Analytics的負(fù)責(zé)人,Rexer Analytics是一家數(shù)據(jù)挖掘和高級(jí)分析咨詢(xún)公司。
回顧 2017
對(duì)于沒(méi)有研究或分析背景的人群,使用商業(yè)智能軟件仍然面臨許多障礙。當(dāng)然出現(xiàn)了Tableau、IBM Watson、Microsoft Power BI等軟件。然而,根據(jù)Rexer Analytics在2017年收集的數(shù)據(jù),只有近一半的受訪者表示,除了數(shù)據(jù)科學(xué)團(tuán)隊(duì),他們公司其他員工也有使用相關(guān)自助工具。工具使用時(shí),常見(jiàn)的問(wèn)題有難以理解分析過(guò)程以及對(duì)分析結(jié)果的誤解。
展望 2018
對(duì)于2018年,實(shí)現(xiàn)推廣數(shù)據(jù)科學(xué)工具的目標(biāo)是擴(kuò)大分析的使用范圍,從而得出有效的結(jié)果,這是至關(guān)重要的。通常情況下,向非數(shù)據(jù)分析方面的員工和管理人員提供工具,讓他們對(duì)自己的假設(shè)進(jìn)行探索和可視化是很重要的。但同樣重要的是,團(tuán)隊(duì)要與數(shù)據(jù)科學(xué)專(zhuān)業(yè)人員一起開(kāi)發(fā)模型并解讀得出的見(jiàn)解,這些專(zhuān)業(yè)人員經(jīng)過(guò)培訓(xùn),能夠掌握特定分析技術(shù)的應(yīng)用。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10