
10個(gè)表明數(shù)據(jù)科學(xué)能力成熟的跡象
通常情況下,我們的業(yè)務(wù)已經(jīng)轉(zhuǎn)向?yàn)榫毩?xí)組織運(yùn)作方式的轉(zhuǎn)型——“建設(shè)一種能力”意味著建設(shè)一種文化來(lái)支持和充分利用數(shù)據(jù)科學(xué)。在許多情況下,這種文化的改變能夠?yàn)槭澜缟系脑S多挑戰(zhàn)性難題提供方向——貧困、疾病爆發(fā)、海洋健康等等。我們已經(jīng)遇到了許多成功組織結(jié)構(gòu)、技術(shù)水平、科學(xué)技能和算法模式。
基于這些經(jīng)驗(yàn),我們?cè)谶@里分享我們的觀點(diǎn)
如何評(píng)估您正在建設(shè)的數(shù)據(jù)科學(xué)能力是否已經(jīng)成熟。這里是我們總結(jié)的一個(gè)成熟的數(shù)據(jù)科學(xué)能力所具備的特點(diǎn)TOP10,以下排名不分先后。
一個(gè)成熟的數(shù)據(jù)科學(xué)組織會(huì)……
1.……將所有數(shù)據(jù)和數(shù)據(jù)訪問(wèn)公開(kāi)化
讓我們從弄清楚一件事開(kāi)始:Silos suck!大多數(shù)在數(shù)據(jù)科學(xué)學(xué)習(xí)曲線上的早期組織會(huì)耗費(fèi)大量時(shí)間收集數(shù)據(jù)而不去分析數(shù)據(jù)。而成熟的數(shù)據(jù)科學(xué)組織認(rèn)識(shí)到,為了成功,他們必須使他們的成員能夠訪問(wèn)和使用所有可用的數(shù)據(jù)——不是一部分?jǐn)?shù)據(jù)、不是數(shù)據(jù)的一個(gè)子集、不是一個(gè)例子,而是所有的數(shù)據(jù)。律師不會(huì)只帶著部分支持他們的證據(jù)出庭,他們會(huì)帶上全部支持證據(jù)。同樣,成熟的數(shù)據(jù)科學(xué)組織使用他們所有的數(shù)據(jù)來(lái)了解他們的業(yè)務(wù)范圍,需求和性能。成功的組織會(huì)花時(shí)間去了解他們收集的所有資料,了解其用途和內(nèi)容,并允許其被方便地訪問(wèn)。
最近的一些文章指出大數(shù)據(jù)和數(shù)據(jù)科學(xué)是相互排斥的:專(zhuān)注增加數(shù)據(jù)收集(大數(shù)據(jù))犧牲了質(zhì)量分析(數(shù)據(jù)科學(xué))。我們不這么認(rèn)為。它們?cè)跀?shù)據(jù)驅(qū)動(dòng)的決策上相互促進(jìn),并能在分析方法的創(chuàng)新上獲得巨大回報(bào)。
大數(shù)據(jù)并不是數(shù)據(jù)量,而是“全部數(shù)據(jù)”——用新奇有趣的方式連接不同數(shù)據(jù)源,以促進(jìn)數(shù)據(jù)科學(xué)的探索,以及用于強(qiáng)大的預(yù)測(cè)和規(guī)則分析的所有數(shù)據(jù)資源的探索。
成熟的數(shù)據(jù)科學(xué)離不開(kāi)公開(kāi)所有數(shù)據(jù)的訪問(wèn)權(quán)限。包括規(guī)范元數(shù)據(jù)、訪問(wèn)協(xié)議和發(fā)現(xiàn)機(jī)制。直到你公開(kāi)所有的數(shù)據(jù),你的組織才會(huì)成熟。
組織的文化因素很重要。我們也看到過(guò)許多組織仍然使用把數(shù)據(jù)權(quán)限當(dāng)成攔路虎:我們聽(tīng)說(shuō)我們無(wú)法獲得數(shù)據(jù),因?yàn)閿?shù)據(jù)管理者會(huì)使我們的訪問(wèn)會(huì)受到限制。管理是必要的,但它不能是一個(gè)人或團(tuán)體控制數(shù)據(jù)訪問(wèn)的借口。放手吧,讓數(shù)據(jù)探索和創(chuàng)新搞起來(lái)!
2.……全面使用Agile并利用dataops
(即,DevOps的數(shù)據(jù)產(chǎn)品開(kāi)發(fā))。
一些傳統(tǒng)組織陷在舊的管理流程和發(fā)展方式中。如果您的IT和發(fā)展部門(mén)提需求需要花一年或更多的時(shí)間,你可能會(huì)體驗(yàn)到這種感受。這些組織拒絕改變——因此,對(duì)新工具的需求要經(jīng)過(guò)評(píng)審委員會(huì)的評(píng)審和無(wú)休止的架構(gòu)/設(shè)計(jì)部門(mén)的支出核算。通常,很多精力耗費(fèi)在只是研究建議解決方案的可行性上了。其他時(shí)間,一個(gè)委員會(huì)將決定哪些是最為緊迫的問(wèn)題。為了實(shí)現(xiàn)數(shù)據(jù)科學(xué)的成熟與成功,這種冗長(zhǎng)的流程必須被打破。官僚主義在科學(xué)界無(wú)用,在數(shù)據(jù)科學(xué)方面也沒(méi)有用處??茖W(xué)界感謝探索,Agile,快速失敗的實(shí)驗(yàn)設(shè)計(jì)(見(jiàn)“7.…感謝快速失敗的合作文化”)。
就像Agile開(kāi)發(fā)深諳用戶(hù)故事,縮短了冗長(zhǎng)的反復(fù)提需求和延遲的流程,Agile數(shù)據(jù)科學(xué)既需要與企業(yè)密切合作,也需要實(shí)驗(yàn)的自由。Agile不是一種軟件開(kāi)發(fā)的方法論,而是一種思維傾向。它滲透到所有成熟水平的組織。上次你的CEO或高管舉辦回顧或Scrum會(huì)議是什么時(shí)候?理解如何推動(dòng)一個(gè)靈活的文化和組織、技術(shù)共同運(yùn)行可能具有挑戰(zhàn)性,但因其合作方式和培養(yǎng)出的創(chuàng)造力,它是非常有益的。
有一種Agile DevOps的數(shù)據(jù)產(chǎn)品開(kāi)發(fā)方法是至關(guān)重要的-我們稱(chēng)之為dataops。Dataops與DevOps原則相同:產(chǎn)品開(kāi)發(fā)人員和最終用戶(hù)之間的緊密合作業(yè)務(wù);簡(jiǎn)明清晰的需求收集和分析周期;較短的迭代周期產(chǎn)品發(fā)布(包括成功和快速失敗的機(jī)會(huì));更快的上市時(shí)間;更好的定義你的MVP(最小可行產(chǎn)品)以更低的產(chǎn)品失敗率取得快速成功;創(chuàng)建一個(gè)動(dòng)態(tài)的、有參與感的團(tuán)隊(duì)氛圍。除了這些一般的Agile的特點(diǎn),dataops還具備加速現(xiàn)時(shí)數(shù)據(jù)分析能力,隨之開(kāi)拓了新的快速數(shù)據(jù)結(jié)構(gòu)(如讀取數(shù)據(jù)湖架構(gòu)),使以前不可能的分析變成可能。dataops將精確的重點(diǎn)放在每一個(gè)MVP和相應(yīng)的SCRUM sprints,最大限度地減少團(tuán)隊(duì)因漫長(zhǎng)的審查周期和不同項(xiàng)目間的認(rèn)知轉(zhuǎn)換成本而造成的停頓時(shí)間。
成熟的數(shù)據(jù)科學(xué)能力滿(mǎn)足一個(gè)Agile dataops環(huán)境的全部條件。
3.……利用數(shù)據(jù)狂人與企業(yè)合作(即數(shù)據(jù)冠軍、編程馬拉松等)
生活在一個(gè)圈子中的數(shù)據(jù)科學(xué)團(tuán)體會(huì)錯(cuò)過(guò)圈子外最好的社區(qū)。能造成良好社會(huì)效應(yīng)的數(shù)據(jù)科學(xué)活動(dòng),包括公開(kāi)的或內(nèi)部的競(jìng)賽(如Kaggle),是提煉技能、學(xué)習(xí)新知識(shí)或與其他部門(mén)的業(yè)務(wù)合作的一個(gè)好方式。
此外,成熟的數(shù)據(jù)科學(xué)團(tuán)體不會(huì)自己?jiǎn)为?dú)進(jìn)行嘗試,而是與組織的其他部門(mén)一同協(xié)作。成功策略之一是鼓勵(lì)內(nèi)部科學(xué)競(jìng)賽,這有利于團(tuán)隊(duì)建設(shè)和整合。成熟的數(shù)據(jù)科學(xué)組織有一種合作文化,數(shù)據(jù)科學(xué)團(tuán)隊(duì)會(huì)與企業(yè)合作,使用數(shù)據(jù)解決關(guān)鍵問(wèn)題。
另一種方法是內(nèi)部眾包(組織內(nèi))-這對(duì)于將最好的問(wèn)題平面化供數(shù)據(jù)科學(xué)家解決尤為有效。成熟的數(shù)據(jù)科學(xué)能力內(nèi)部眾包了數(shù)據(jù)科學(xué)處理流程里的多個(gè)不同的任務(wù),包括數(shù)據(jù)選擇、數(shù)據(jù)清理、數(shù)據(jù)準(zhǔn)備與轉(zhuǎn)換;集合模型生成;模型評(píng)價(jià);和假設(shè)精煉化(見(jiàn)“4.……遵循嚴(yán)格的科學(xué)方法,,即測(cè)量、實(shí)驗(yàn)、紀(jì)律化、迭代、精煉所需的假設(shè)”)。由于數(shù)據(jù)清理和準(zhǔn)備會(huì)消耗整個(gè)項(xiàng)目50-80%的經(jīng)歷,你可以通過(guò)并行化(通過(guò)眾包)這些清理和準(zhǔn)備工作,特別是通過(guò)眾包,分配給組織里最熟悉特定的數(shù)據(jù)產(chǎn)品和數(shù)據(jù)庫(kù)的人,顯著節(jié)省了項(xiàng)目時(shí)間,并減少了風(fēng)險(xiǎn)。
此外,算法不能解決所有問(wèn)題。讓算法了解所有可能的情況下的結(jié)果并選擇正確的結(jié)果仍然是極為困難的。人類(lèi)仍然在不斷追尋著,人們深知挑戰(zhàn)的背景是對(duì)數(shù)據(jù)的實(shí)體解釋并建立精確的模型。
4.……遵循嚴(yán)格的科學(xué)方法,即測(cè)量、實(shí)驗(yàn)、紀(jì)律化、迭代、精煉所需的假設(shè)
求知心和無(wú)紀(jì)律是不相容的。這并不意味著約束、限制想象力或官僚化。一些組織會(huì)雇用一些數(shù)據(jù)科學(xué)家將他們安排在小房間里,并期待即時(shí)結(jié)果。另一種情況則是,數(shù)據(jù)科學(xué)家在IT組織里負(fù)責(zé)操作,而不是發(fā)現(xiàn)和創(chuàng)新。
成熟的數(shù)據(jù)科學(xué)能力建立在科學(xué)方法的基礎(chǔ)之上。首先,進(jìn)行觀察(即,收集對(duì)您的業(yè)務(wù)產(chǎn)生影響的對(duì)象、事件和過(guò)程的數(shù)據(jù))——收集數(shù)據(jù),以便在您的業(yè)務(wù)流程中的適當(dāng)?shù)牡胤角度霚y(cè)量系統(tǒng)或流程(或人員)來(lái)了解您的業(yè)務(wù)。思考有趣的問(wèn)題,探索,然后與您的業(yè)務(wù)伙伴制定可供實(shí)驗(yàn)的假設(shè)。當(dāng)你有了一套好的問(wèn)題和假設(shè),然后測(cè)試他們的分析數(shù)據(jù),制定一個(gè)科學(xué)的數(shù)據(jù)模型,或者設(shè)計(jì)一個(gè)新的算法來(lái)驗(yàn)證每一個(gè)假設(shè),或者細(xì)化的假設(shè)和迭代。這種方法將確保值是設(shè)定在正式科學(xué)嚴(yán)謹(jǐn)?shù)膽?yīng)用之上。這是一個(gè)成熟的數(shù)據(jù)科學(xué)能力無(wú)需置疑的特點(diǎn)。
科學(xué)流程的關(guān)鍵部分之一是了解你樣本的局限性。尋找和測(cè)試選擇偏差是關(guān)鍵。同樣重要的是要理解“大數(shù)據(jù)”并不意味著結(jié)束不完整的樣本(不公平抽樣)或樣本方差(自然多樣性)。
5.……吸引和雇用各種參與者,給予他們探索的自由
關(guān)鍵詞:各種。一大堆數(shù)學(xué)書(shū)呆子有什么好玩的?(三個(gè)統(tǒng)計(jì)人員一起外出打獵。過(guò)了一會(huì)兒,他們發(fā)現(xiàn)一只兔子。第一個(gè)統(tǒng)計(jì)學(xué)家在一米范圍內(nèi)瞄準(zhǔn)并射偏了兔子。第二個(gè)在一米內(nèi)內(nèi)瞄準(zhǔn)但沒(méi)有射中兔子。第三個(gè)人大叫“我們打中了!”)一些組織正在尋找偉大的程序員的數(shù)據(jù)科學(xué)家,他們也理解和運(yùn)用復(fù)雜的應(yīng)用數(shù)學(xué),知道很多關(guān)于具體的業(yè)務(wù)領(lǐng)域,能與所有利益相關(guān)者的溝通。或許會(huì)有一到兩個(gè)這樣的人存在,我們稱(chēng)之為紫色的獨(dú)角獸。成熟的組織將數(shù)據(jù)科學(xué)視為一項(xiàng)團(tuán)隊(duì)運(yùn)動(dòng),每個(gè)成員都會(huì)貢獻(xiàn)寶貴的獨(dú)特技能和觀點(diǎn)。
他們的技能和能力如下:先進(jìn)的數(shù)據(jù)庫(kù)/數(shù)據(jù)管理和數(shù)據(jù)結(jié)構(gòu),智能元數(shù)據(jù)索引,搜索,檢索,數(shù)據(jù)挖掘(機(jī)器學(xué)習(xí))和分析(KDD=數(shù)據(jù)知識(shí)探索);統(tǒng)計(jì)和統(tǒng)計(jì)程序設(shè)計(jì);數(shù)據(jù)與信息可視化;挖掘網(wǎng)絡(luò)分析圖(一切都是圖?。徽Z(yǔ)義(自然語(yǔ)言處理、本體);數(shù)據(jù)密集型計(jì)算(如Hadoop,Spark,云,等);建模與仿真(計(jì)算機(jī)數(shù)據(jù)科學(xué));和特定領(lǐng)域的數(shù)據(jù)分析工具。
但不要以為每個(gè)人都一開(kāi)始就要有這些技能中的至少一個(gè)——一些最好的數(shù)據(jù)科學(xué)組織,通過(guò)提煉目前員工中能夠促成數(shù)據(jù)科學(xué)成功的核心能力,培養(yǎng)這些技能(即使在非技術(shù)培訓(xùn)的員工范圍內(nèi))。這些核心能力包括10個(gè)C:好奇(好奇)、創(chuàng)新(創(chuàng)新),溝通,協(xié)作,勇敢的解決問(wèn)題,致力于終身學(xué)習(xí)、咨詢(xún)(可以做,會(huì)做的態(tài)度),冷靜的壓力下(堅(jiān)持,應(yīng)變能力,適應(yīng)性和模糊性),計(jì)算,和關(guān)鍵思想家(客觀分析儀)。
多元化觀點(diǎn)的益處是多方面的。它們使提出的問(wèn)題更有趣,但更重要的是,它們使答案更有趣、有用、有益。更大的背景下的答案可以產(chǎn)生更大的影響。成熟的數(shù)據(jù)科學(xué)能力意味著,你需要的不僅僅是數(shù)學(xué)或計(jì)算機(jī)科學(xué)方面的人。成熟的組織能夠完美整合業(yè)務(wù)專(zhuān)家、中小企業(yè)、“數(shù)據(jù)講故事的人”,創(chuàng)新的“數(shù)據(jù)藝術(shù)家”,然后給予他們探索和發(fā)掘數(shù)據(jù)資產(chǎn)的全部權(quán)力的自由。這種富有多樣性的團(tuán)隊(duì)輸出將比任何紫色獨(dú)角獸更為豐富。記住,擁有一匹馬和一頭鯨比獨(dú)角獸更好!
6.……毫不留情地問(wèn)正確的問(wèn)題,并不斷尋找下一個(gè)。
一個(gè)成功的、成熟的數(shù)據(jù)科學(xué)能力的基礎(chǔ)是能夠提出正確數(shù)據(jù)類(lèi)型問(wèn)題的能力。這是基于理解企業(yè)如何運(yùn)作或經(jīng)營(yíng)的挑戰(zhàn)體現(xiàn)在自身身上。最好的數(shù)據(jù)科學(xué)團(tuán)隊(duì)有著前面提到的所有優(yōu)秀品質(zhì)(見(jiàn)“5…吸引和保留不同的參與者,使他們自由地探索?!保汉闷妗?chuàng)意、溝通、協(xié)作、勇敢的問(wèn)題解決者、終身學(xué)習(xí)者、實(shí)干者、有韌性。
成熟的數(shù)據(jù)科學(xué)能力的展現(xiàn)在不懈追求新問(wèn)題(甚至可能是之前永遠(yuǎn)不會(huì)被問(wèn)到的問(wèn)題)和在問(wèn)題中提出疑問(wèn)!數(shù)據(jù)科學(xué)成熟使組織能夠從企業(yè)的整體層面上去提出一些尖銳的問(wèn)題,只需規(guī)定如何詢(xún)問(wèn)這些問(wèn)題,而不害怕得到“錯(cuò)誤的答案”。
在這種情況下,隨著數(shù)據(jù)科學(xué)能力的成熟的是分析能力的成熟。高級(jí)分析往往被描述為超越傳統(tǒng)商業(yè)智能的分析的新階段,包括描述性分析(后見(jiàn))和診斷分析(監(jiān)督)。當(dāng)前高級(jí)分析包括了這些新階段:預(yù)測(cè)分析(遠(yuǎn)見(jiàn))和規(guī)范分析(充分地洞察你的業(yè)務(wù),知道哪些決定、行動(dòng)或干預(yù)將導(dǎo)致最佳的、最優(yōu)的結(jié)果)。分析的下一個(gè)新興階段成熟是認(rèn)知分析(“正確的景象”)-知道你的數(shù)據(jù)(在正確的時(shí)間,在正確的語(yǔ)境,正確的使用案例。這種“認(rèn)知”的能力不只是得到正確的答案,還要能提出正確的問(wèn)題(特別是從來(lái)沒(méi)有被要求或考慮的問(wèn)題)。分析成熟度是數(shù)據(jù)科學(xué)能力的最高水平成熟。正如諺語(yǔ)所說(shuō):“最壞的問(wèn)題是你不問(wèn)的那個(gè)問(wèn)題。”
7.……感謝快速失敗(fast-fail)的合作文化。
文化是一種很難定義的東西,但是如果你用文化來(lái)評(píng)估一個(gè)團(tuán)隊(duì),它是很好的指標(biāo)。有些組織害怕失敗,或有一種“不贊成”文化。他們更加注重戰(zhàn)略而不是文化。但不少企業(yè)專(zhuān)家提醒我們“文化早餐策略(或午餐)”,因此,你對(duì)數(shù)據(jù)科學(xué)文化所做的準(zhǔn)備要早于你的數(shù)據(jù)科學(xué)策略。承認(rèn)錯(cuò)誤是一回事,但有目的地用你的數(shù)據(jù)去探索未知并不是一個(gè)錯(cuò)誤。你可以通過(guò)自我提問(wèn)測(cè)試你的組織成熟度:當(dāng)我的假設(shè)失敗時(shí)會(huì)發(fā)生什么?快速失敗的心態(tài)就是這句話表達(dá)的含義:“好的判斷來(lái)自經(jīng)驗(yàn)。而經(jīng)驗(yàn)來(lái)自壞的判斷?!?
真實(shí)的數(shù)據(jù)科學(xué)(基于嚴(yán)謹(jǐn)?shù)目茖W(xué)方法論,見(jiàn)4.……遵循嚴(yán)格的科學(xué)方法,即測(cè)量、實(shí)驗(yàn)、紀(jì)律化、迭代、精煉所需的假設(shè))探索那些可以通過(guò)agility的多個(gè)假設(shè)的迭代很快學(xué)會(huì)的事物。這可能需要你邀請(qǐng)你的業(yè)務(wù)合作伙伴探討你的數(shù)據(jù)‐使用DataOps(見(jiàn)“2.……全面使用Agile并利用dataops(即DevOps的數(shù)據(jù)產(chǎn)品開(kāi)發(fā))”)。擁有數(shù)據(jù)和工具直接關(guān)系到它的成功和成熟(見(jiàn)“1.……將所有數(shù)據(jù)和數(shù)據(jù)訪問(wèn)對(duì)其成員開(kāi)放?!保?。成熟的數(shù)據(jù)科學(xué)能力會(huì)考慮到一個(gè)迭代的fast-fail文化可能會(huì)幫你實(shí)現(xiàn)最有價(jià)值的發(fā)現(xiàn),做出以證據(jù)為基礎(chǔ)的最好的決定,并為您的組織提供最具創(chuàng)新性的選擇。
一個(gè)項(xiàng)目失敗的陰影往往難以被克服。很難界定花費(fèi)有限的資源卻發(fā)現(xiàn)假設(shè)是錯(cuò)誤的——來(lái)自知道在文化中那些沒(méi)有做的事常常會(huì)失去或不被慶祝的價(jià)值。一個(gè)成熟的數(shù)據(jù)科學(xué)能力和傳統(tǒng)的A/B測(cè)試相似。設(shè)計(jì)實(shí)驗(yàn)來(lái)測(cè)試、用評(píng)估替代假說(shuō),其中一個(gè)可能包括一些干預(yù)或調(diào)整(治療樣本)二是零假設(shè)(適用于控制,未經(jīng)處理的樣品)。通常情況下,這些實(shí)驗(yàn)中的一個(gè)將失敗,另一個(gè)不會(huì)。這是一個(gè)測(cè)試的全部要點(diǎn)。如果一個(gè)組織不能接受失敗,那么他們就無(wú)法獲得成熟的數(shù)據(jù)科學(xué)。
值得強(qiáng)調(diào)的是,快速失敗構(gòu)成了機(jī)器學(xué)習(xí)算法的分析基礎(chǔ)。具體而言,許多分類(lèi)算法的目標(biāo)是盡可能準(zhǔn)確地定義邊界(盡管是復(fù)雜的)來(lái)區(qū)分不同類(lèi)別的對(duì)象。
這個(gè)邊界可能是線性的(例如,如果你的團(tuán)隊(duì)比我的團(tuán)隊(duì)獲得更多分?jǐn)?shù),你便獲勝),它也有可能是傾斜的(例如,如果你A+B兩門(mén)考試的總成績(jī)是140(滿(mǎn)分200)然后你便通過(guò)這門(mén)課程),或者它可能很復(fù)雜(當(dāng)你處理高維的復(fù)雜數(shù)據(jù)時(shí),超平面能夠用支持向量機(jī)(SVM)算法將兩個(gè)類(lèi)別區(qū)分開(kāi)來(lái))。
為了在復(fù)雜的分類(lèi)規(guī)則之間劃分邊界(例如,商業(yè)決策、產(chǎn)品選擇或類(lèi)標(biāo)簽),這個(gè)問(wèn)題的空間可以表示為一個(gè)在不同區(qū)域的邊界被精確地定義的映射的練習(xí)。
沿每一個(gè)“英寸”確定邊界的位置需要詳細(xì)、全面的調(diào)查。例如,如果你想檢驗(yàn)當(dāng)你打折時(shí)你的客戶(hù)會(huì)在黑色星期五購(gòu)買(mǎi)你的產(chǎn)品這一假設(shè),那么你需要嘗試多種折扣(10%,20%,30%,40%,甚至0%)看哪里是真正的邊界。在確定你的投資回報(bào)率優(yōu)化的邊界上,你的利潤(rùn)率是非常關(guān)鍵的,這意味著尋找邊界兩側(cè)的點(diǎn)(失敗和成功的條件),直到找尋邊界點(diǎn)最后形成一個(gè)框架。在這種情況下,快速失敗是必要的,否則資源投資就浪費(fèi)了。
8.……通過(guò)插圖和講故事來(lái)展示自己的見(jiàn)解
大多數(shù)組織都有某種形式的報(bào)告。這通常集中產(chǎn)生于月度或每周回顧中,其中折線圖、柱狀圖或餅圖會(huì)說(shuō)明了在報(bào)告中的時(shí)間內(nèi)發(fā)生了什么。這意味著,該組織的能力不會(huì)超越問(wèn)“發(fā)生了什么,什么時(shí)候?”這個(gè)水平,它局限于描述性分析的世界里。它為預(yù)測(cè)和規(guī)范分析的興起提供契機(jī)。因此,成熟的數(shù)據(jù)科學(xué)組織將會(huì)問(wèn):“為什么會(huì)發(fā)生這樣的事情,接下來(lái)會(huì)發(fā)生什么,我們能做什么來(lái)取得更好的結(jié)果?”并且組織可以通過(guò)詢(xún)問(wèn)“我應(yīng)該對(duì)我的數(shù)據(jù)提出什么問(wèn)題?”取得進(jìn)一步成熟。
當(dāng)有洞察力的產(chǎn)生來(lái)回答“如果怎么樣會(huì)怎么樣”問(wèn)題(“什么可能發(fā)生”或“什么是所有可能的結(jié)果,如果我們…?),這些回答不能被簡(jiǎn)化為一個(gè)直線圖或條形圖來(lái)說(shuō)明結(jié)果的影響。圖表、美麗獨(dú)特的插圖不僅是你努力工作的證明,更會(huì)產(chǎn)生關(guān)鍵性的影響。成熟的數(shù)據(jù)科學(xué)能力聚焦于更難回答的問(wèn)題,然后用新的和創(chuàng)造性的方式回答(說(shuō)明),故事,和見(jiàn)解,數(shù)據(jù)顯示出來(lái)。
因此,成熟的數(shù)據(jù)科學(xué)團(tuán)隊(duì)包括一個(gè)或更多的以藝術(shù)家的角度描繪數(shù)據(jù)和用數(shù)據(jù)講故事的人。故事和可視化是我們?cè)谑聦?shí)間建立聯(lián)系的地方。它們使聽(tīng)者能夠更好地理解上下文(什么?),為什么(這么說(shuō)?),以及“什么將在未來(lái)發(fā)生”(現(xiàn)在會(huì)發(fā)生什么?)。
9.……建立價(jià)值證明,而不是概念證明。
許多組織寄希望于從現(xiàn)成的數(shù)據(jù)科學(xué)中尋找答案。他們想利用供應(yīng)商告訴他們會(huì)解決他們的問(wèn)題特定的工具,所以他們成立了一個(gè)Hadoop環(huán)境(或類(lèi)似的),將數(shù)據(jù)導(dǎo)入到它,問(wèn)一個(gè)問(wèn)題,看看系統(tǒng)是否有提供了現(xiàn)成的“正確答案”!對(duì)嗎?
錯(cuò)!
成熟的數(shù)據(jù)科學(xué)能力意味著有條理地安排你的試驗(yàn)。什么是你真正希望你的試驗(yàn)證明的概念或真正的商業(yè)價(jià)值??jī)r(jià)值證明改變了工作的價(jià)值命題。所以,更多的關(guān)注于價(jià)值(回答新的問(wèn)題,開(kāi)拓新的市場(chǎng),獲得新的見(jiàn)解),而不是那些你已經(jīng)知道了答案的問(wèn)題。因此,專(zhuān)注證明你正在建設(shè)的數(shù)據(jù)科學(xué)能力將是一個(gè)持續(xù)證明價(jià)值的旅程,(例如,10倍于許多我們已有的經(jīng)驗(yàn)),這將解決組織最大的“未知的未知數(shù)?!?
建立與價(jià)值的思想,用Agile來(lái)武裝你所做的(見(jiàn)2.……全面使用Agile并利用dataops(即DevOps的數(shù)據(jù)產(chǎn)品開(kāi)發(fā)))。DataOps文化慶祝成功的MVP(最小可行產(chǎn)品)-盡可能快的提供有價(jià)值的產(chǎn)品(而不是概念證明),從而使團(tuán)隊(duì)走向下一個(gè)成功。
10.…將數(shù)據(jù)科學(xué)作為一種做事方式,而不是一件要做的事。
數(shù)據(jù)科學(xué)不僅僅是一個(gè)口號(hào),或只是數(shù)據(jù)分析師或商業(yè)智能功能的一個(gè)標(biāo)簽。不要把它用來(lái)做一個(gè)更好的月度報(bào)告(“請(qǐng)呈上TPS報(bào)告封面”)。它當(dāng)然不是一勞永逸的。
數(shù)據(jù)科學(xué)是組織思考方法和運(yùn)作模式的根本轉(zhuǎn)變。它包括以數(shù)據(jù)為核心的所有功能,是一種新的有趣的方式,使組織更具創(chuàng)新性。成熟的數(shù)據(jù)科學(xué)能力的證據(jù)是一個(gè)組織相信并以此為信條:“我們現(xiàn)在是時(shí)候開(kāi)始思考將數(shù)據(jù)科學(xué)作為一種職業(yè),而不是工作;作為企業(yè)文化,而不是企業(yè)議程;作為一種戰(zhàn)略,而不是一個(gè)計(jì)謀;作為一種核心競(jìng)爭(zhēng)力,而不是一個(gè)過(guò)程;作為一種行事方法,而不是一件要做的事情。”
最后,我們提供一些組織可能需要的識(shí)別當(dāng)前成熟度的指標(biāo),以及國(guó)家走向大數(shù)據(jù)科學(xué)成熟的建議指標(biāo)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10