
從What到How,大數(shù)據(jù)實戰(zhàn)攻略秘笈_數(shù)據(jù)分析師培訓
為什么大數(shù)據(jù)專案的失敗率高達55%?你是每兩個中就失敗的那一個嗎?看大數(shù)據(jù)實戰(zhàn)攻略秘笈,自我診斷你是否還深陷大數(shù)據(jù)迷思不可自拔,一起破解大數(shù)據(jù)獲利方程式。
馬云、白宮、釋昭慧和貓下去餐廳有什么共通點?答案是大數(shù)據(jù)。今年3月,阿里巴巴集團創(chuàng)辦人馬云來臺的演講中提到:「未來已不是IT時代,而是DT(Data Technology)時代!」揭示大數(shù)據(jù)對阿里巴巴集團的重要性。一個星期后,白宮宣布任命PayPal和eBay的前任執(zhí)行長帕帝亞(DJ Patil),為全美國第一個首席數(shù)據(jù)科學家,幫助政府善用大數(shù)據(jù),并鞏固美國在數(shù)據(jù)科學領域的領先地位。而日前慈濟內(nèi)湖開發(fā)案鬧得沸沸揚揚,釋昭慧上談話性節(jié)目時,竟也引用大數(shù)據(jù),暗喻慈濟遭教會保守勢力暗算。臺北市知名餐廳貓下去小館在3月宣布取消訂位服務的同時,也不忘提到大數(shù)據(jù)證明自己取消訂位服務后,營業(yè)額不降反升。
無論這些大數(shù)據(jù)到底是不是真的「大」數(shù)據(jù),都說明了一件事:大數(shù)據(jù)發(fā)展至今,幾乎已經(jīng)成為全民常識。從科技大佬、政治名人到市井小民,隨口都可以說上幾句大數(shù)據(jù)的大道理,大數(shù)據(jù)的熱門程度可見一斑。但是你真的懂大數(shù)據(jù)嗎?或者是說,你真的會用大數(shù)據(jù)嗎?
從What到How
大數(shù)據(jù)變了,它變得更成熟也更主流了,以前你對大數(shù)據(jù)一知半解,依稀知道大數(shù)據(jù)可以干嘛,但現(xiàn)在這已經(jīng)遠遠不夠了?!竷赡昵埃蛻魰柎髷?shù)據(jù)是什么?現(xiàn)在會問要怎么切入大數(shù)據(jù)、有什么題目可以做?一些進階企業(yè)甚至會問,如何用更新的工具,讓效率更快或價值更高?大家問的題目變具體了?!笽BM軟體事業(yè)處總經(jīng)理賈景光說。
市場研究機構Gartner去年8月發(fā)布的「科技成熟度報告」顯示,大數(shù)據(jù)已經(jīng)從過熱高峰期過渡到幻滅谷底期。報告中指出,「市場對大數(shù)據(jù)的興致未減,但由於市場上開始出現(xiàn)越來越多樣的大數(shù)據(jù)應用,各式尖端數(shù)據(jù)處理技術和應用陸續(xù)推陳出新,這讓大數(shù)據(jù)開始揮別期望過熱期,步入幻滅低谷期。」這說明大數(shù)據(jù)并非即將滅亡,相反的,大數(shù)據(jù)越來越成熟。交大產(chǎn)業(yè)加速器暨專利開發(fā)策略中心產(chǎn)業(yè)分析師黃秋華認為,幻滅才是成長的開始,大數(shù)據(jù)應用在未來只會越來越多,而且越來越多元,市場已普遍對大數(shù)據(jù)有所認識,各大企業(yè)也都已導入大數(shù)據(jù)專案。
每年都會在部落格上發(fā)布大數(shù)據(jù)產(chǎn)業(yè)地圖的FirstMark Capital營運總監(jiān)特克(Matt Turck),在2014年發(fā)布的大數(shù)據(jù)產(chǎn)業(yè)板塊圖中,數(shù)據(jù)應用的勢力越來越大,跟2012年一比,數(shù)據(jù)應用已占整個產(chǎn)業(yè)板塊近四分之一強。種種現(xiàn)象皆說明,大數(shù)據(jù)已經(jīng)過了紙上談兵的階段,進入短兵相接時期。那問題來了,你該怎么做?
「大數(shù)據(jù)即將在5年內(nèi)消失!」去年被Exebank選為全美排名第4首席技術長的Teradata技術長寶立明(Stephen Brobst),在接受《數(shù)位時代》專訪時表示,「很多人以為大數(shù)據(jù)就是指大量的數(shù)據(jù),事實上,我認為這是大數(shù)據(jù)中最無趣的部分。我們真正在尋找的是非傳統(tǒng)的、未曾被挖掘過的數(shù)據(jù),并且從這些數(shù)據(jù)中去提煉出價值。我相信在5年內(nèi),我們就不會再使用大數(shù)據(jù)這個詞了,到頭來大數(shù)據(jù)就只是數(shù)據(jù)而已?!?/span>
要用大數(shù)據(jù),先打破迷思
寶立明意指,大數(shù)據(jù)將成為每家企業(yè)的DNA和未來能否保持競爭優(yōu)勢的關鍵,因此大數(shù)據(jù)本身已經(jīng)不重要了,怎么用大數(shù)據(jù)才是重點。他認為亟需被打破的迷思,就是大數(shù)據(jù)很大這件事。事實上,大數(shù)據(jù)是個非常差勁的命名,因為這讓人們直接聯(lián)想到數(shù)量,但其實數(shù)據(jù)的量從來都不是重點,如何將數(shù)據(jù)轉(zhuǎn)換成商業(yè)價值才是關鍵。
阿里巴巴副總裁車品覺在接受《數(shù)位時代》專訪時,也有類似觀點:「忘掉大數(shù)據(jù)吧!如果大數(shù)據(jù)已經(jīng)成為常態(tài)元素了,你何必特別講出來呢?」車品覺認為,大數(shù)據(jù)只是創(chuàng)新決策的一種新工具,不用把它想得太萬能,不是所有的問題都是數(shù)據(jù)問題,也不是所有的問題,大數(shù)據(jù)都能解決,「不用太神化它,太多的行外人把它講得很神,反而我們業(yè)內(nèi)人不敢說得太神話,因為知道兌現(xiàn)不了。」
關於大數(shù)據(jù)迷思,第一個你要知道的就是:大數(shù)據(jù)不是神,更不是萬靈丹,以及大不大根本就不是重點。那重點是什么呢?
協(xié)助解決商業(yè)問題
「Big Data這個名字事實上是有點誤導,真正賺錢的是,從大數(shù)據(jù)萃取出來的大智慧(Big Intelligence)?!购团婵萍紕?chuàng)辦人翟本喬說。翟本喬以今年甫獲得奧斯卡獎的《模仿游戲》(The Imitation Game)為例,說明大數(shù)據(jù)價值鏈中的關鍵角色:世界二次大戰(zhàn)中,電腦之父圖靈(Alan Mathison Turing)帶領英國情報局打敗德軍,潛水艇的無線電波傳來傳去,聽起來像雜音,這里頭嘟嘟嘟的聲音叫做數(shù)據(jù)(Data)。就算你知道它是摩斯密碼里面的某一個字,可是這又怎么樣?做機器的不是最有價值的,做那個破解密碼的機器也不是最有價值的。你如果能把它破解出來,知道德國潛水艇在什么時候去哪里攻擊你的艦隊,然后根據(jù)這個情報做出反應,消滅德國艦隊,這才是最有價值的。
大數(shù)據(jù)若只有技術,但缺乏商業(yè)眼光和解決問題的能力,那其實不叫大數(shù)據(jù),而更像一場大災難。根據(jù)2013年大數(shù)據(jù)公司InfoChimps的報告,大數(shù)據(jù)專案的失敗率遠高於一般IT專案,大數(shù)據(jù)專案的失敗率高達55%,而一般IT專案是25%,等於每兩個大數(shù)據(jù)專案就有一個會失敗。
大數(shù)據(jù)專案的失敗率為什么這么高?企業(yè)主的思維沒有調(diào)整過來、缺少商業(yè)眼光、過度重視技術以及操之過急,都是導致大數(shù)據(jù)專案比一般IT專案更容易失敗的原因。但其實打從一開始,大數(shù)據(jù)就不應該只是IT專案?!讣夹g和平臺只是一個工具,它還需要很多策略執(zhí)行面的配套,大數(shù)據(jù)的成效才會發(fā)生。技術造成大數(shù)據(jù)不成功的機率很低,因為大家的技術成熟度都非常高,不管是大數(shù)據(jù)、中數(shù)據(jù)還是小數(shù)據(jù),都是要解決業(yè)務上的問題?!官Z景光表示。
企業(yè)主過度相信經(jīng)驗,是導致大數(shù)據(jù)專案失敗的一大原因,事實上,這可能是影響最重大的一項,畢竟企業(yè)主若沒有體認到數(shù)據(jù)決策的重要性,那么企業(yè)談再多用大數(shù)據(jù)變現(xiàn)都是枉然。商業(yè)分析軟體大廠賽仕電腦(SAS)副總經(jīng)理高芬蒂表示,任何企業(yè)不管大小,只要懂得運用數(shù)據(jù)做決策,勝出機率一定比較大。但如果只是憑著經(jīng)驗拍腦袋,沒有跟別人做出差異化,便比較容易失敗。
大企業(yè)紛用大數(shù)據(jù)拚轉(zhuǎn)型
無論企業(yè)新舊大小,大數(shù)據(jù)已開始全面進入各行各業(yè),而且不同產(chǎn)業(yè)對大數(shù)據(jù)的關注點都不一樣。例如便利商店強打即時方便,特別注重導購和促銷。金融業(yè)則因其商品特性較為敏感且個人化,特別注重與顧客之間建立信任關系。電信業(yè)坐擁大量數(shù)據(jù),但受限於法規(guī),目前聚焦於用大數(shù)據(jù)提升服務品質(zhì)。
大數(shù)據(jù)商業(yè)模式?jīng)]有所謂一體適用的通則,但卻有各產(chǎn)業(yè)都會遇上的共同困擾:大數(shù)據(jù)團隊的管理問題。大數(shù)據(jù)亟需跨部門的整合協(xié)作,因此幾乎所有成功的大數(shù)據(jù)案例,皆有設立專門統(tǒng)籌數(shù)據(jù)并和其他部門協(xié)調(diào)的單位,而且設置層級越高越好。例如IBM負責掌管大數(shù)據(jù)的市場智慧(Marketing Intelligence)部門,就直接隸屬於總經(jīng)理辦公室。而遠傳電信的大數(shù)據(jù)智慧部也強調(diào)跨部門合作,讓數(shù)據(jù)技術人員和行銷、業(yè)務等部門互通有無,交換想法,好讓數(shù)據(jù)分析更貼近實際業(yè)務需求。
小型企業(yè)也能玩大數(shù)據(jù)
最后,大數(shù)據(jù)是否成功,與企業(yè)大小并無直接關系,任何懂得善用數(shù)據(jù)做決策和創(chuàng)新的企業(yè),都稱得上是擁有大數(shù)據(jù)思維的企業(yè)。即使沒有大數(shù)據(jù),也不用妄自菲薄。如果你是中小企業(yè),不要急著大興土木建設大數(shù)據(jù)環(huán)境,不妨先盤點看看企業(yè)內(nèi)部的數(shù)據(jù)是否開放透明,而且彼此相容。然后小規(guī)模地測試模型是否可行,確認想法是可復制的,再行大規(guī)模布署。另一方面,無論企業(yè)大小,先問對問題,事情就解決了一半,好問題會決定整個大數(shù)據(jù)專案的數(shù)據(jù)蒐集策略和種類。
中研院資科所研究員陳昇瑋說:「大家都在忙著打造鍋子、廚房和刀子,但好的廚師比較沒有那么多,臺灣廠商總覺得一定要把廚房準備好才能做菜,第一步就打造技術團隊或是買技術平臺,但其實絕大多數(shù)的企業(yè)都不需要這樣做,因為臺灣廠商真正擁有大數(shù)據(jù)的并不多。」
在大企業(yè)之外,其實新創(chuàng)企業(yè)也在整個大數(shù)據(jù)價值鏈中扮演重要角色,發(fā)揮小兵立大功的力量,值得關注。例如才成立不到1年的科智,以制造業(yè)數(shù)據(jù)管理平臺服務奪得臺灣第一座英特爾APEC挑戰(zhàn)賽冠軍獎盃。還有自詡為大數(shù)據(jù)礦工手中鏟子的云深創(chuàng)新,其大數(shù)據(jù)推薦系統(tǒng)讓HiNet新聞社群的黏著度提升了20%,同樣令人驚艷。
從大企業(yè)到小新創(chuàng),大數(shù)據(jù),你學會了嗎?
數(shù)據(jù)解讀大數(shù)據(jù)
1.企業(yè)的大數(shù)據(jù)現(xiàn)況
過去一年,在美國已經(jīng)展開數(shù)據(jù)主導計畫的組織成長了125%,但其中有42%還在討論如何實行。
80%大企業(yè)及63%中小企業(yè)正開展數(shù)據(jù)主導的計畫
2.最普遍的數(shù)據(jù)來源
63%客戶數(shù)據(jù)庫
61%電子郵件
53%交易數(shù)據(jù)
51%工作清單
48% Word文件
3.未來一年的大數(shù)據(jù)預算規(guī)劃
36%計畫增加
41%沒有增減
企業(yè)平均花費740萬美元,采取數(shù)據(jù)相關的初步行動
大型企業(yè):1,380萬美元
中小企業(yè):160萬美元
4.大數(shù)據(jù)計畫時間表
30%目前沒有規(guī)劃
27%已經(jīng)展開大數(shù)據(jù)計畫
14%正在進行大數(shù)據(jù)概念驗證
12%未來1年內(nèi)會啟動大數(shù)據(jù)計畫
8%有規(guī)劃但沒有明確時間表
8%考慮未來13~24個月施行計畫
5.大數(shù)據(jù)預算的三大領域
58%數(shù)據(jù)分析
38%數(shù)據(jù)采礦
6.大數(shù)據(jù)專案的目標
61%增進決策品質(zhì)
57%幫助預測及規(guī)劃
51%增加決策速度
7.大數(shù)據(jù)的三大挑戰(zhàn)
48%技術人員的能力限制
47%預算的限制
40%舊數(shù)據(jù)的處理能力
注:今年3月IDG Enterprise揭露了最新的大數(shù)據(jù)調(diào)查報告,主要是針對美國、英國、澳洲1,139間企業(yè)進行的調(diào)查結果。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10