
揭穿數(shù)據(jù)分析的12個神話
在IT業(yè)界中,炒作越多,誤解就越多,數(shù)據(jù)分析也不例外。作為當(dāng)今IT技術(shù)最熱門的方向之一,數(shù)據(jù)分析可以帶來顯著的業(yè)務(wù)收益,但是帶來的誤解可能也會阻礙順利地、及時地交付可能讓業(yè)務(wù)用戶和最終客戶受益的分析能力。
隨著企業(yè)組織創(chuàng)建或者擴展其分析戰(zhàn)略,這里有十幾個需要揭穿的數(shù)據(jù)分析神話需要他們牢記在心。
神話1:數(shù)據(jù)分析需要大量投資
現(xiàn)在來看,幾乎每一項技術(shù)都必須經(jīng)過財務(wù)穩(wěn)健性的過濾?!斑@項技術(shù)成本多少?”這個問題是IT和業(yè)務(wù)經(jīng)理們在提出啟動新項目或者開發(fā)新工具的時候,會被問到的第一個問題。
有些人認(rèn)為,數(shù)據(jù)分析的本質(zhì)是一項成本高昂的工作,因此僅限于那些有著充足預(yù)算或者大量內(nèi)部資源的企業(yè)組織。但并非所有數(shù)據(jù)分析項目都需要大量投資,移動和在線房地產(chǎn)服務(wù)提供商Trulia副總裁Deep Varma這樣表示。
“現(xiàn)在市場上有這么多的開源工具和其他可用工具,可以幫助你開始展示數(shù)據(jù)分析的價值。你需要很好地了解你的內(nèi)部數(shù)據(jù)存儲和你試圖解決哪些問題。云也讓嘗試用分析來解決業(yè)務(wù)問題變得更輕松?!?
現(xiàn)代分析“是基于云系統(tǒng)和大數(shù)據(jù)架構(gòu)的,從定義上看其成本不如傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)那么高,”咨詢公司EY全球分析負(fù)責(zé)人Beatriz Sanz Saiz表示。
“而且,數(shù)據(jù)和分析通常用于實現(xiàn)三個結(jié)果:改善流程效率、收入增長和主動風(fēng)險管理??偠灾?,數(shù)據(jù)和分析的應(yīng)用,給任何公司帶來了重要的成本收益?!?
神話2:你需要大數(shù)據(jù)來執(zhí)行分析
對很多人來說,大數(shù)據(jù)和分析這兩個概念是齊頭并進的。這個想法是說,企業(yè)組織需要在執(zhí)行分析之前收集大量數(shù)據(jù),以便產(chǎn)生業(yè)務(wù)洞察,改進決策等。
大數(shù)據(jù)分析的某些好處已經(jīng)很明確了,那些擁有資源的企業(yè)確實可以通過利用數(shù)據(jù)存儲作為分析的一部分來獲得顯著的競爭優(yōu)勢。但是,大數(shù)據(jù)是分析必不可少的想法是不正確的。
人力資源公司Allegis Global Solutions商業(yè)智能執(zhí)行總監(jiān)Tim Johnson表示:“人們經(jīng)常試圖獲取盡可能多的數(shù)據(jù),他們聽到大數(shù)據(jù)就會興奮不已。有一個誤解就是,數(shù)據(jù)越多越好,機器會對所有這些數(shù)據(jù)進行篩選。”
但是,分析師們需要的是特定的數(shù)據(jù),而不是更多的數(shù)據(jù)。Johnson表示:“有95%的用戶在尋求與他們工作相關(guān)的信息,來支持決策和改善業(yè)績?!钡瞧髽I(yè)組織必須考慮業(yè)務(wù)用戶來決定他們需要哪些數(shù)據(jù),還有如何呈現(xiàn)這些,他們需要的不是數(shù)據(jù)越多越好。
Johnson說:“要能夠以各種方式訪問每一條信息,這有點不太可能,實際上也會阻礙信息的采用。相反,你要找出對他們最重要的信息、你如何以最簡單的形式向他們呈現(xiàn)這些信息?!?
神話3:分析可以消除人為偏差
自動化系統(tǒng)執(zhí)行的方式不應(yīng)該是有偏見的。但是技術(shù)是由人開發(fā)的,所以消除所有的偏差幾乎是不可能的。有人認(rèn)為,分析和機器學(xué)習(xí)會消除人為偏差。
“遺憾的是,這根本不是真的。我們使用‘訓(xùn)練數(shù)據(jù)’來優(yōu)化算法和分析,這會重新引發(fā)訓(xùn)練數(shù)據(jù)所具有的特征?!?
在某些情況下,這會給分析結(jié)果帶來偏差;有些情況下,則有更嚴(yán)重的偏差。Mason表示:“算法這么說,并不意味著回答是公平的或者有用的?!?
神話4:最好的算法總是會勝出
事實上,有了足夠的數(shù)據(jù),“有時候算法并不重要,”Mason表示。在他援引的一篇題為“數(shù)據(jù)的不合理有效性”的IEEE文章中,Google工程師認(rèn)為,簡單的統(tǒng)計模型,加上非常大量的數(shù)據(jù),可以比包含了大量特性和總結(jié)的“智能優(yōu)越”模型實現(xiàn)更好的結(jié)果。
“在某些情況下,僅僅處理大量數(shù)據(jù)就能實現(xiàn)最好的結(jié)果,”Mason說。
神話5:算法是安全的
從很大程度上看,人們固有信念中是信任統(tǒng)計模型和算法的,隨著企業(yè)組織建立他們的分析程序,他們越來越多地依賴復(fù)雜模型來支持決策。
“因為人們不了解模型、算法和其他先進的數(shù)據(jù)科學(xué)實踐,所以人們信任這些。用戶不覺得自己具有挑戰(zhàn)這些模型的知識,所以他們反過來覺得必須信任建立了這些模型的‘聰明人’?!?
“在過去50到60年中,我們一直聽到有關(guān)于人工智能將在未來20年內(nèi)占主導(dǎo)的說法,我們還會繼續(xù)聽到有人這么說。在我們公然地相信機器學(xué)習(xí)及其結(jié)果之前,我們還有很多沒有涉足的領(lǐng)域。在那之前,我們需要向那些構(gòu)建了算法和模型的人發(fā)起挑戰(zhàn),解釋這些答案是怎么來的。這并不是說我們不能依靠結(jié)果,而是我們需要透明度讓我們可以信任分析、并對分析進行驗證。”
神話6:數(shù)據(jù)科學(xué)是一種神秘的“黑色藝術(shù)”
數(shù)據(jù)科學(xué)這個學(xué)科近些年來受到了很多關(guān)注,有時候會產(chǎn)生混淆,數(shù)據(jù)科學(xué)究竟是什么?基本上,數(shù)據(jù)科學(xué)涉及到使用算法來發(fā)現(xiàn)數(shù)據(jù)中的模式。
“數(shù)據(jù)科學(xué)似乎很神秘,因為這些算法能夠分析比人腦能理解的更多變量和更大的數(shù)據(jù)集,”數(shù)據(jù)存儲公司Micron首席信息官Trevor Schulze表示。
Schulze說:“近幾年隨著計算能力和內(nèi)存的擴大,我們現(xiàn)在能夠快速解決10年前技術(shù)解決不了的問題。數(shù)據(jù)科學(xué)是統(tǒng)計推斷技術(shù)的自然演變。一旦你了解了數(shù)學(xué),數(shù)據(jù)科學(xué)就沒有什么神秘的地方了?!?
神話7:要做更多的數(shù)據(jù)科學(xué),你就需要更多的數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是當(dāng)今所有技術(shù)專業(yè)人員中最迫切的人才類型。如果企業(yè)組織重新定位數(shù)據(jù)科學(xué)家的工作內(nèi)容,那么用更少一點的數(shù)據(jù)科學(xué)家就可以做到同樣的事情。
“有很多數(shù)據(jù)科學(xué)家的時間是花在了非增值活動上,例如尋找數(shù)據(jù)集、把數(shù)據(jù)放在可以處理的地方、轉(zhuǎn)換和清理數(shù)據(jù)。鑒于聘請數(shù)據(jù)科學(xué)家是很困難的一件事,所以你肯定不是想讓數(shù)據(jù)科學(xué)家來做這些低價值的工作吧?!?
“Uber的Michelangelo平臺讓數(shù)據(jù)科學(xué)家可以專注于功能設(shè)計、提取和分析,而不是對數(shù)據(jù)進行挖掘,這樣可以大大提高生產(chǎn)力。”
神話8:分析需要的時間太長
現(xiàn)在快速完成工作對于企業(yè)來說是一個巨大的競爭考量因素,不管這個工作是將產(chǎn)品或者服務(wù)推向市場,還是以接近實時的方式響應(yīng)客戶詢問。分析聽起來像是需要花費很長時間,這與實現(xiàn)速度和靈活性的目標(biāo)背道而馳。
“分析項目需要花費很長時間并且非常復(fù)雜——這個誤解仍然存在。最終,這是關(guān)于人才的問題。通過恰當(dāng)?shù)募寄芙M合和敏捷方法的運用,大問題可以在幾天或者幾周內(nèi)得到解決,而不是幾個月的時間?!?
神話9:技術(shù)是最難的部分
今天可用的技術(shù)越來越多,選擇部署和集成合適的工具組合來從分析團隊那里得到預(yù)期的結(jié)果,這不是像公園里散步這么簡單的事,咨詢公司ISG的IT外包和數(shù)字咨詢服務(wù)總監(jiān)James Burke表示。
真正難的部分是“把組織結(jié)構(gòu)和運營模式結(jié)合到一起,把所有從人、流程、技術(shù)角度所需要的東西結(jié)合到一起。而且,你如何在現(xiàn)有企業(yè)組織內(nèi)部或者臨近的地方做這件事情,似乎對企業(yè)來說是最難的部分?!?
不要以為分析工具會完成所有工作,這一點也很重要。咨詢公司W(wǎng)est Monroe的技術(shù)實踐高級總監(jiān)Greg Layok表示:“技術(shù)本身并不會解決任何業(yè)務(wù)問題。如果企業(yè)組織急于創(chuàng)建數(shù)據(jù)湖的話,最終會陷入沼澤,一個其他任何人都無法了解的信息沼澤中?!?
技術(shù)并不解決分析問題,Layok表示?!笆紫?,發(fā)現(xiàn)一個業(yè)務(wù)問題,然后問‘我需要哪些數(shù)據(jù)來解決這個問題?’這將幫助你發(fā)現(xiàn)企業(yè)組織內(nèi)的數(shù)據(jù)鴻溝?!?
神話10:數(shù)據(jù)分析應(yīng)該是一個單獨的部門
在有些企業(yè)組織內(nèi),數(shù)據(jù)分析是作為一個單獨的部門運作的,還有一些是被嵌入到了一個跨職能部門中,咨詢和數(shù)據(jù)收集公司Delvinia總裁兼首席創(chuàng)新關(guān)Steven Mast這樣說。
“不過,隨著數(shù)據(jù)擴展到所有業(yè)務(wù)領(lǐng)域,以及這一變化的快速發(fā)生,部門模式已經(jīng)不起作用了。隨著企業(yè)組織變得更加以客戶為中心,數(shù)據(jù)驅(qū)動的分析專家應(yīng)該成為業(yè)務(wù)部門的核心,而不是作為一個你打電話許尋求支持的部門來運作?!?
今天企業(yè)組織面臨的很多復(fù)雜問題都是發(fā)生在業(yè)務(wù)部門的,這些問題的很多解決方案卻隱藏在數(shù)據(jù)中心。Mast表示:“數(shù)據(jù)科學(xué)家和數(shù)據(jù)專家正在與這些部門緊密合作,使用大型數(shù)據(jù)集和人工智能,這將成為培育下一代產(chǎn)品、服務(wù)和客戶體驗的關(guān)鍵?!?
神話11:分析僅限于有博士學(xué)位的人
在分析團隊中有很多受過良好教育的人才是很棒的,但并不是成功的要求條件。
Saiz說:“企業(yè)往往認(rèn)為,團隊中沒有博士的話他們就無法實現(xiàn)最佳的分析?,F(xiàn)代分析需要融合的技能——那些精通新興技術(shù)和開源軟件的人。用擁有不同技能的人才來打造團隊,包括大數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)可視化專家,這才能體現(xiàn)差異。”
神話12:人工智能會毀掉人類的工作、破壞經(jīng)濟
從歷史上看,新技術(shù)的引入顛覆了就業(yè)和行業(yè),人們擔(dān)心人工智能會消除人類執(zhí)行某些任務(wù)的需求。
“人工智能解決方案在解決特定問題方面要比人類好得多,人工智能讀得更快、記得更多、計算復(fù)雜數(shù)據(jù)關(guān)系比任何人類都好。但是,人工智能不能處理新出現(xiàn)的情況,這是人類擅長的地方?!?
可以肯定的是,人工智能的發(fā)展已經(jīng)讓很多工作消失或者減少,接下來也還會有很多工作如此,“但是,我們?nèi)祟惱斫夂蛻?yīng)對完全不可預(yù)見的環(huán)境方面不會被現(xiàn)有任何已知的人工智能技術(shù)所取代。對于可預(yù)見的未來,最有效的方法就是利用人工智能系統(tǒng)來增強人類能力,讓人工智能執(zhí)行某些‘繁重任務(wù)’,這方面算法的表現(xiàn)是好于人類的。盡管很多工作會因人工智能而妨礙變,但是人類仍然是這個商業(yè)生態(tài)系統(tǒng)中的重要組成部分?!?
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10