
破除十二個數(shù)據(jù)分析的誤區(qū)
在IT界,炒作越大,誤解就越大,數(shù)據(jù)分析也不例外。分析是當(dāng)今信息技術(shù)最熱門的方面之一,它可以帶來顯著的業(yè)務(wù)收益,但是誤解可能會妨礙分析功能的順利和及時的交付,而這些功能這可能會使業(yè)務(wù)用戶和最終客戶受益。
隨著組織創(chuàng)建或擴(kuò)展其分析策略,下面來看看十幾個他們可能要避免的誤區(qū)。
誤區(qū)一:數(shù)據(jù)分析需要大量投資
現(xiàn)在看來,每一項(xiàng)技術(shù)努力都必須通過一個確保經(jīng)濟(jì)穩(wěn)健性的過濾器。IT和業(yè)務(wù)經(jīng)理們提出啟動項(xiàng)目或部署新工具時,首先會提出的問題之一是“這要花費(fèi)多少錢”?
有些人認(rèn)為數(shù)據(jù)分析本質(zhì)上是一項(xiàng)昂貴的工作,因此它僅限于預(yù)算較大或內(nèi)部資源較多的組織。但并非所有的數(shù)據(jù)分析工作都需要大量的投資,移動和在線房地產(chǎn)服務(wù)提供商Trulia的工程副總裁Deep Varma這樣說道。
Varma說:“現(xiàn)在市場上有這么多的開源以及其它工具可以幫助你開始展示數(shù)據(jù)分析的價值。你需要對內(nèi)部數(shù)據(jù)存儲以及你要解決的問題有一個很好的理解。在嘗試用分析解決業(yè)務(wù)問題時,云使之變得更簡單?!?
現(xiàn)代分析“是基于云系統(tǒng)和大數(shù)據(jù)架構(gòu)的,從定義上來說它們比傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)要便宜得多”,安永咨詢公司的全球分析領(lǐng)導(dǎo)者Beatriz SanzSaiz補(bǔ)充道。
Saiz說:“另外,通常用數(shù)據(jù)和分析實(shí)現(xiàn)三個結(jié)果:提高流程效率、收入增長和主動風(fēng)險管理??偠灾?,數(shù)據(jù)和分析的應(yīng)用為所有公司帶來重大的成本收益?!?
誤區(qū)二:你需要大數(shù)據(jù)來執(zhí)行分析
對于很多人來說,大數(shù)據(jù)和分析的概念是齊頭并進(jìn)的。這個想法是,組織需要在執(zhí)行分析之前收集大量數(shù)據(jù),以便產(chǎn)生業(yè)務(wù)洞察,改進(jìn)決策制定等。
當(dāng)然,大數(shù)據(jù)分析的好處已為大家所接受,擁有這些資源的公司確實(shí)可以通過利用其數(shù)據(jù)存儲作為分析工作的一部分來獲得顯著的競爭優(yōu)勢。但是,大數(shù)據(jù)是分析必不可少的想法是不正確的。
人力資源公司Allegis Global Solutions的商業(yè)智能執(zhí)行總監(jiān)Tim Johnson說:“人們經(jīng)常試圖采集盡可能多的數(shù)據(jù);他們一聽到‘大數(shù)據(jù)’就興奮不已。這個誤解就是數(shù)據(jù)越多越好,機(jī)器會分門別類?!?
但是,與其說分析師需要更多的數(shù)據(jù),不如說他們需要具體的數(shù)據(jù)。Johnson說:“95%的用戶正在尋找與他們的工作相關(guān)的信息,并支持決策和提高性能。企業(yè)與其關(guān)注更多的數(shù)據(jù),不如多為業(yè)務(wù)用戶著想,不僅要確定他們需要訪問哪些數(shù)據(jù),而且還要確定如何展示數(shù)據(jù)。
Johnson說:“提供對各種信息和多種格式的訪問可能是巨大的挑戰(zhàn),并且實(shí)際上阻礙了采用。相反,找出對它們來說很重要的事情,以及如何以最簡單的形式向他們展示這些信息?!?
誤區(qū)三:分析可以消除人為偏差
自動化系統(tǒng)執(zhí)行的方式是不應(yīng)該帶有偏差的。但技術(shù)是由人類建立的,所以消除所有的偏差幾乎是不可能的。有人認(rèn)為分析和機(jī)器學(xué)習(xí)可以消除人為偏差。
全球技術(shù)咨詢公司ThoughtWorks的技術(shù)負(fù)責(zé)人Mike Mason說:“不幸的是,這根本不是真的。算法和分析使用‘訓(xùn)練數(shù)據(jù)’進(jìn)行調(diào)整,并將重現(xiàn)訓(xùn)練數(shù)據(jù)的任何特征?!?
Mason說在某些情況下,這會給分析結(jié)果帶來偏見;在其它情況下,結(jié)果可能會更糟,他說:“‘僅僅因?yàn)樗惴ㄟ@么說’并不意味著答案是公平的或有用的。”
誤區(qū)四:最好的算法總是能贏
事實(shí)上,有了足夠的數(shù)據(jù),“有時候算法并不重要,”Mason如是說。他在IEEE的一篇文章中引用了“數(shù)據(jù)的不合理有效性”,谷歌的工程師認(rèn)為,簡單的統(tǒng)計(jì)模型,加上大量的數(shù)據(jù),比包含很多特性和摘要的“智能優(yōu)越”模型取得更好的結(jié)果。
Mason說:“在某些情況下,僅僅處理大量的數(shù)據(jù)就能取得最好的結(jié)果?!?
誤區(qū)五:算法能確保安全
Johnson說,人們固有的信任統(tǒng)計(jì)模型和算法在很大程度上是隨著組織建立他們的分析程序而逐漸依賴復(fù)雜的模型來支持決策。
Johnson說:“因?yàn)槿藗儾涣私饽P汀⑺惴ê推渌冗M(jìn)的數(shù)據(jù)科學(xué)實(shí)踐,所以他們信任它們。用戶不覺得自己具備可以挑戰(zhàn)模型的知識,相反,他們必須相信建造它們的“聰明人”。
Johnson說:“在過去的50到60年里,我們聽說過人工智能將在20年內(nèi)接管人類的工作,而且我們將繼續(xù)聽到人們這樣說。在我們能夠公然地相信機(jī)器學(xué)習(xí)和結(jié)果之前,還有很多事情要做。在那之前,我們需要挑戰(zhàn)構(gòu)建算法和模型的人,以解釋如何得出答案。我們不是不能依賴結(jié)果,而是需要透明度,以便我們可以信任和驗(yàn)證分析?!?
誤區(qū)六:數(shù)據(jù)科學(xué)是一種神秘的“魔法”
數(shù)據(jù)科學(xué)近年來受到了很多關(guān)注,關(guān)于它究竟是什么有時會產(chǎn)生混淆。它主要涉及使用算法來查找數(shù)據(jù)中的模式。
數(shù)據(jù)存儲公司Micron的首席技術(shù)官 Trevor Schulze說:“數(shù)據(jù)科學(xué)似乎很神秘,因?yàn)檫@些算法能夠分析更多人腦更所無法理解的變量和數(shù)據(jù)集?!?
Schulze說:“近年來,隨著計(jì)算能力和內(nèi)存的增大,我們現(xiàn)在能夠快速解決十年前用任何技術(shù)解決不了的問題。數(shù)據(jù)科學(xué)是統(tǒng)計(jì)推斷技術(shù)的自然演變,數(shù)十年來已經(jīng)得到很好的理解。一旦你理解了數(shù)學(xué),數(shù)據(jù)科學(xué)就沒有那么神秘了?!?
誤區(qū)七:為了做更多的數(shù)據(jù)科學(xué),你需要更多的數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是當(dāng)今所有技術(shù)專業(yè)人員中最緊俏的。如果他們把精力轉(zhuǎn)移到應(yīng)該做的事情上,也許組織就不需要這么多這樣的專業(yè)人士。
Mason說:“很多數(shù)據(jù)科學(xué)家的時間花在了非增值活動上,比如尋找數(shù)據(jù)集、把數(shù)據(jù)放到可以處理它們的地方、以及轉(zhuǎn)換和清理數(shù)據(jù)”。鑒于聘請數(shù)據(jù)科學(xué)家是這么地困難,那些低價值的任務(wù)并不是你想要的。
Mason說:“優(yōu)步的米開朗琪羅平臺(Michelangelo platform)使數(shù)據(jù)科學(xué)家能夠?qū)W⒂谔匦怨こ?、提取和分析,而不是將?shù)據(jù)搬來搬去,因此使他們可以大大提高生產(chǎn)力?!?
誤區(qū)八:分析太耗時
現(xiàn)在快速完成工作——無論是將產(chǎn)品或服務(wù)推向市場,還是近乎實(shí)時地響應(yīng)客戶詢問——對于公司來說都是一個巨大的競爭考慮因素。分析聽起來像是需要很長時間來執(zhí)行的事情,與達(dá)到速度和靈活性的目標(biāo)背道而馳。
Saiz說:“這種類型的項(xiàng)目耗時太長,而且相當(dāng)復(fù)雜,這個迷思依然存在。在一天結(jié)束的時候,這都是關(guān)于人才的。通過恰當(dāng)?shù)募寄芙M合和敏捷方法的應(yīng)用,大問題可以在幾天或幾周內(nèi)得到解決,而不是幾個月?!?
誤區(qū)九:技術(shù)是最難的部分
咨詢公司ISG的IT采購和數(shù)字咨詢服務(wù)總監(jiān)James Burke說,隨著當(dāng)今可用的技術(shù)的數(shù)量不斷增加,選擇合適的工具組合來部署和集成以從分析團(tuán)隊(duì)獲得預(yù)期的結(jié)果并非易事。
但是,Burke說真正困難的部分是“把組織結(jié)構(gòu)和運(yùn)營模式放在一起,把人員、流程和技術(shù)視角所需要的所有東西放在一起。另外,你如何在現(xiàn)有的組織內(nèi)部或者‘附近’這樣做,這對組織來說似乎是最難的。”
不要以為分析工具會完成所有的工作。咨詢公司W(wǎng)est Monroe的技術(shù)實(shí)踐高級總監(jiān)Greg Layok說:“技術(shù)本身決不會解決任何業(yè)務(wù)問題。在急于創(chuàng)建數(shù)據(jù)湖的過程中,組織最終卻陷入了沼澤,或者是一個難以讓任何人弄明白的信息困境?!?
Layok說技術(shù)并不解決分析問題。他說:“首先,發(fā)現(xiàn)一個業(yè)務(wù)問題,然后問,'我需要哪些數(shù)據(jù)來解決這個問題?'這將幫助你發(fā)現(xiàn)組織內(nèi)的數(shù)據(jù)缺口?!?
誤區(qū)十:數(shù)據(jù)分析應(yīng)該是一個獨(dú)立的部門
在一些組織中,數(shù)據(jù)分析本身是作為一個部門運(yùn)作的,而在另一些組織中則深深嵌入到一個跨職能團(tuán)隊(duì)中,咨詢和數(shù)據(jù)收集公司Delvinia的總裁兼首席創(chuàng)新官Steven Mast這樣說道。
Mast說:“但是,隨著所有業(yè)務(wù)領(lǐng)域的數(shù)據(jù)大量涌現(xiàn)和變革發(fā)生的速度,部門模式不起作用了。隨著企業(yè)變得更加以客戶為中心,數(shù)據(jù)驅(qū)動的分析專家應(yīng)該成為業(yè)務(wù)部門的核心,而不是作為一個呼叫支持的部門來運(yùn)行。”
Mast說當(dāng)今很多組織面臨的復(fù)雜問題都在業(yè)務(wù)部門內(nèi)部,而且這些問題的很多解決方案都隱藏在數(shù)據(jù)中。他說:“數(shù)據(jù)科學(xué)家和專家與這些業(yè)務(wù)部門密切合作,使用大量數(shù)據(jù)集和人工智能將是培育下一代產(chǎn)品,服務(wù)和客戶體驗(yàn)的關(guān)鍵。”
誤區(qū)十一:分析是博士干的事情
在分析團(tuán)隊(duì)中有很多受過良好教育的人是很棒的,但這不是成功的要求。
Saiz說:“公司往往認(rèn)為,沒有博士學(xué)位,他們將無法進(jìn)行最佳的分析。現(xiàn)代分析需要一系列技能——那些在新興技術(shù)和開源軟件方面精明的人。建立各懷絕技的職能,包括大數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)可視化專家等等,才是最重要的。”
誤區(qū)十二:人工智能會破壞就業(yè)和經(jīng)濟(jì)
歷史上新技術(shù)的引入已經(jīng)顛覆了很多工作和行業(yè),人們擔(dān)心人工智能會消除人們執(zhí)行某些任務(wù)的需要。
Schulze說:“人工智能解決方案比人們在解決某些問題方面要好得多?!叭斯ぶ悄芸梢宰x得更快,記住更多,計(jì)算復(fù)雜的數(shù)學(xué)關(guān)系比任何人都好。然而,人工智能不能處理真正新穎的情況,而這是人類擅長的地方?!?
誠然,Schulze說,某些工作已經(jīng)消失或者因人工智能的增長而減少,其它的工作也隨之而來。他說:“盡管如此,我們理解和解決完全無法預(yù)料的環(huán)境的能力也不會被目前所知的人工智能技術(shù)所取代。在可預(yù)見的未來,最有效的人工智能方法將是通過人工智能系統(tǒng)來增強(qiáng)人的能力,這些人工智能系統(tǒng)執(zhí)行一些‘繁重的工作’,在這些工作中算法的表現(xiàn)優(yōu)于人。盡管很多工作會因人工智能而發(fā)生變革,但人仍將是這個商業(yè)生態(tài)系統(tǒng)的重要組成部分?!?
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10