
作者 | Bob Violino
編譯 | 中國統(tǒng)計網(wǎng)
對于IT來說,夸大其功效的炒作越多,外界對其的誤解也會越大,數(shù)據(jù)分析當(dāng)然也不例外。數(shù)據(jù)分析是當(dāng)今信息技術(shù)最熱門的領(lǐng)域之一,可以為企業(yè)帶來顯著的業(yè)務(wù)收益,但這些誤解可能將妨礙分析過程的及時、順利交付,并影響業(yè)務(wù)用戶和最終客戶。
隨著企業(yè)創(chuàng)建或擴展其分析策略,這里有12個他們需要格外注意的關(guān)于數(shù)據(jù)分析的誤解。
誤區(qū)1:數(shù)據(jù)分析需要大量投資
如今,似乎對每一項新技術(shù)的投入都必須通過嚴(yán)格的財務(wù)支出的篩選過程?!八枰嗌儋M用?”——是IT和業(yè)務(wù)經(jīng)理在提議啟動項目或部署新工具時需要首先考慮的問題之一。
有些人認(rèn)為數(shù)據(jù)分析本質(zhì)上是一項代價高昂的工作,因此僅限于擁有大量預(yù)算或大量內(nèi)部資源的企業(yè)機構(gòu)。但是事實并非如此,現(xiàn)在市場上有很多開源工具和其他工具能夠幫助展示數(shù)據(jù)分析的價值;并且基于云系統(tǒng)的大數(shù)據(jù)架構(gòu),也會比傳統(tǒng)的數(shù)據(jù)倉庫便宜得多。你只需要明確內(nèi)部數(shù)據(jù)存儲以及要解決的問題,就可以輕松的在云上使用分析來解決業(yè)務(wù)問題。
此外,數(shù)據(jù)分析通常用于實現(xiàn)三個結(jié)果:提高流程效率、實現(xiàn)收入增長和主動進行風(fēng)險管理,總的來說,數(shù)據(jù)分析在任何公司的應(yīng)用中都帶來了巨大的成本效益。
誤區(qū)2:你需要“大數(shù)據(jù)”才能執(zhí)行分析
對于許多人來說,大數(shù)據(jù)和分析的概念是相輔相成的,企業(yè)需要在執(zhí)行分析之前收集大量數(shù)據(jù),以便生成業(yè)務(wù)洞察,改進決策制定等。
當(dāng)然,大數(shù)據(jù)分析的優(yōu)勢也很明確,擁有這些資源的公司利用大數(shù)據(jù)存儲作為促進分析工作的一部分,獲得了顯著的競爭優(yōu)勢。但是大數(shù)據(jù)卻并不是分析必不可少的搭配。
分析師需要特定的數(shù)據(jù),而不是更多的數(shù)據(jù)。要想更好地支持決策和提高績效,企業(yè)必須更多的考慮業(yè)務(wù)用戶,確定他們需要訪問哪些數(shù)據(jù),如何呈現(xiàn)數(shù)據(jù),而不是關(guān)注更多的數(shù)據(jù)。95%以上的用戶會尋找和他們工作相關(guān)的信息來支持他們進行決策,來提高業(yè)務(wù)表現(xiàn),所以企業(yè)需要以最簡單的格式向他們提供這些信息,幫助他們快速定位重要信息。
誤區(qū)3:分析消除了人類的偏見
自動化系統(tǒng)執(zhí)行的方式不應(yīng)該存在偏見,但技術(shù)是由人類建立的,因此消除所有偏見幾乎是不可能的。
有些人認(rèn)為分析和機器學(xué)習(xí)消除了人類的偏見,不幸的是,這并沒有實現(xiàn)。算法和分析使用“訓(xùn)練數(shù)據(jù)”進行調(diào)整,并將重現(xiàn)“訓(xùn)練數(shù)據(jù)”所具有的任何特征,在某些情況下,這會在分析過程中引入良性偏見,但也有可能帶來更嚴(yán)重的偏見——因為“算法這么說”并不意味著答案是公平的或者有用的。
誤區(qū)4:最好的算法意味著絕對的勝利
事實證明,有了足夠的數(shù)據(jù),有時算法無關(guān)緊要。谷歌的工程師認(rèn)為,數(shù)據(jù)有著不合理有效性 ,簡單的統(tǒng)計模型,加上極大量的數(shù)據(jù),比包含大量特征和總結(jié)的“智能優(yōu)越模型”能輸出更優(yōu)質(zhì)的結(jié)果。
因此,在某些情況下,只需處理更大量的數(shù)據(jù)就可以獲得最佳效果。
誤區(qū)5:算法是安全的
人們固執(zhí)地信任統(tǒng)計模型和算法,并且隨著分析程序的組織構(gòu)建,他們會越來越依賴復(fù)雜的模型來支持決策。這或許是因為用戶并不覺得他們有能力挑戰(zhàn)模型,因此他們必須相信構(gòu)建它們的“聰明人”。
比如,在過去的50到60年里,我們反復(fù)聽到“人工智能將在20年內(nèi)接管人類工作”的言論,現(xiàn)在也還是有人反復(fù)強調(diào)這種觀點。在我們可以完全信任機器學(xué)習(xí)和它們輸出的結(jié)果之前,還有很多事情要做。在那之前,我們需要挑戰(zhàn)構(gòu)建算法和模型的人,讓他們解釋如何得到答案。這并不是說我們不能依賴于結(jié)果,而是說我們需要透明度,這樣我們才可以信任和驗證分析結(jié)果。
誤區(qū)6:數(shù)據(jù)科學(xué)是一種神秘的“黑色藝術(shù)”
近年來,數(shù)據(jù)科學(xué)學(xué)科受到了很多關(guān)注,有時甚至?xí)c其他學(xué)科產(chǎn)生混淆?;旧蟻碚f,數(shù)據(jù)科學(xué)涉及了數(shù)據(jù)查找模式中所有算法的使用。
數(shù)據(jù)科學(xué)似乎很神秘,因為這些算法能夠分析比人類能夠理解的范圍內(nèi)更多變量和更大的數(shù)據(jù)集。但是隨著近年來計算能力和內(nèi)存的擴大,我們現(xiàn)在能夠快速解決10年前任何技術(shù)都無法解決的問題,人們也隨之明白,數(shù)據(jù)科學(xué)是統(tǒng)計推斷技術(shù)的自然演變。但一旦你理解了數(shù)學(xué),數(shù)據(jù)科學(xué)就沒有了神秘感。
誤區(qū)7:需要越多的數(shù)據(jù)科學(xué)家,才能做更多的數(shù)據(jù)科學(xué)工作
如今,數(shù)據(jù)科學(xué)家是所有技術(shù)專業(yè)人員中最緊缺的。但如果他們重新定位他們正在進行的工作,組織機構(gòu)可能會減少這些專業(yè)人員的數(shù)量。
許多數(shù)據(jù)科學(xué)家的時間花費在非增值活動上,比如查找數(shù)據(jù)集,將數(shù)據(jù)發(fā)送到可以處理的地方,以及轉(zhuǎn)換和清理數(shù)據(jù)等??紤]到聘請數(shù)據(jù)科學(xué)家的困難程度,這些低價值的任務(wù)并不是企業(yè)想要的。
數(shù)據(jù)科學(xué)家需要專注于特征工程,提取和分析,而不是圍著數(shù)據(jù)打轉(zhuǎn),這樣才能大大提高他們的工作效率和產(chǎn)出。
誤區(qū)8:分析需要花費很長時間
如今,快速完成工作——無論是將產(chǎn)品或服務(wù)推向市場,還是近乎實時地響應(yīng)客戶咨詢,對于任何企業(yè)來說都是影響核心競爭力的重要因素。
分析聽起來似乎需要很長時間才能執(zhí)行,與實現(xiàn)速度和敏捷性的目標(biāo)背道而馳,但這仍然是一個誤區(qū)。歸根究底,一切都與人才有關(guān)。有了正確的技能組合和敏捷方法論的應(yīng)用,大型問題也可以在幾天或幾周內(nèi)得到回答,而不是幾個月。
誤區(qū)9:技術(shù)是最困難的部分
隨著當(dāng)今可用技術(shù)的不斷增加,選擇合適的工具組合進行部署和集成,可以
更好從分析團隊獲得所需的結(jié)果,
然而,真正困難的部分是“整合組織結(jié)構(gòu)和運營模式,將人員、流程、技術(shù)視角所需的全部內(nèi)容整合在一起。假如你認(rèn)為只有技術(shù)才能解決任何商業(yè)問題,那么在此認(rèn)知之上建立的數(shù)據(jù)架構(gòu),最終會將企業(yè)帶入“沼澤地”中,或者是產(chǎn)出任何人都難以理解的信息。
技術(shù)無法解決分析問題,正確的流程是:先確定一個業(yè)務(wù)問題,然后問,“我需要什么數(shù)據(jù)來解決這個問題?”這將幫有效幫助您識別企業(yè)內(nèi)數(shù)據(jù)的差距。
誤區(qū)10:數(shù)據(jù)分析應(yīng)該是一個單獨的部門
在一些組織中,數(shù)據(jù)分析被劃入一個單獨的部門,而另一些組織則將數(shù)據(jù)分析深深地融入了跨職能團隊。
然而事實證明,以所有業(yè)務(wù)領(lǐng)域的數(shù)據(jù)爆炸和變化發(fā)生的速度,以單獨部門存在的數(shù)據(jù)分析開始不起作用了。另一方面,隨著企業(yè)變得更加以客戶為中心,應(yīng)該讓數(shù)據(jù)分析專家成為業(yè)務(wù)部門的核心,而不是將其獨立于作為業(yè)務(wù)支持的部門。
當(dāng)今企業(yè)面臨的許多復(fù)雜問題都存在于業(yè)務(wù)部門內(nèi),而且這些問題的許多解決方案都隱藏在數(shù)據(jù)中。數(shù)據(jù)科學(xué)家和技術(shù)專家,與這些業(yè)務(wù)部門密切合作,使用大型數(shù)據(jù)集和人工智能,將成為孵化下一代產(chǎn)品、服務(wù)和客戶體驗的關(guān)鍵。
誤區(qū)11:分析工作只適用于博士
很高興我們在分析團隊中擁有了許多受過良好教育的人,但這并不是分析成功的必要條件。
企業(yè)傾向于認(rèn)為,如果數(shù)據(jù)分析師沒有博士學(xué)位,他們將無法進行最佳的分析。然而現(xiàn)代分析需要各種技能——建立具有不同技能的“分離艙”,包括那些精通新興技術(shù)和開源軟件的人、大數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)可視化專家等等,才是最重要的。
誤區(qū)12:人工智能會摧毀工作并破壞經(jīng)濟
歷史上新技術(shù)的引入擾亂了許多工作和行業(yè),人們同樣擔(dān)心人工智能會消除人們執(zhí)行某些任務(wù)的必要。
雖然AI解決方案比解決某些問題的人要好得多,比如AI可以更快地閱讀,記住更多,并且比任何人都能更好地進行復(fù)雜數(shù)學(xué)關(guān)系的計算。但是,AI也無法應(yīng)對真正全新的變化,這是人類擅長的地方。
可以肯定的是,某些工作已經(jīng)因AI的興起而消失或減少,與此同時這種趨勢還在增長。盡管如此,我們理解和解決“完全不可預(yù)見的情況”的優(yōu)勢不會被任何目前的AI技術(shù)所取代。在可預(yù)見的未來,最有效的方法是通過AI系統(tǒng)來增強人類的能力,取代人工的“繁重”。雖然人工智能正導(dǎo)致許多工作崗位發(fā)生變化,但是人們會將成為這一商業(yè)生態(tài)系統(tǒng)的重要組成部分。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10