
大數(shù)據(jù)是在其上構(gòu)建的創(chuàng)意和生意
大數(shù)據(jù)不是神話,不是泡沫,它是一些實在的工具和方法的綜合,是在其上構(gòu)建的創(chuàng)意和生意。大數(shù)據(jù)已經(jīng)走過十年輝煌,數(shù)據(jù)分析師讓我們繼續(xù)期待。
最近10年,沒有一個技術(shù)名詞能像大數(shù)據(jù)和數(shù)據(jù)分析師一樣深入社會每個階層,獲得這么廣泛的關(guān)注。大數(shù)據(jù)和數(shù)據(jù)分析師被討論得如此泛濫已經(jīng)引起警覺,以至于2013年后,真正從事大數(shù)據(jù)行業(yè)的人盡量避免提及這三個字。本文無意對大數(shù)據(jù)概念做任何修正,評判,或?qū)<艺撜{(diào)。只是一些事實,和來自20年數(shù)據(jù)分析從業(yè)經(jīng)驗的一些感想。
輝煌的十年大數(shù)據(jù)浪潮來自三股力量推動:技術(shù)社區(qū),市場,學術(shù)圈。
2004,Google發(fā)表了 “MapReduce:Simplified Data Processing on Large Clusters”,明確提出MapReduce。值得注意的是,Google并沒有發(fā)明什么,’分布執(zhí)行-中央?yún)R總’ 是最樸素古老的并行思想,Google這篇文章價值在于,把這種并行思想流程化、規(guī)范化了,并提出了可能的實現(xiàn)架構(gòu)。市場迅速對此作出反應,很多軟件實現(xiàn)涌現(xiàn)出來,其中最成功的是Hadoop, 雅虎慷慨地把它交給Apache軟件基金會。之后數(shù)年經(jīng)過無數(shù)人努力發(fā)展成了完整的工具棧。
2008年前后以安卓手機為代表的智能設備開始普及,信息采集成本前所未有得低,物聯(lián)網(wǎng),大數(shù)據(jù)變現(xiàn)前景變得樂觀。眾包思想,自媒體概念深入人心。
2010年,無人駕駛汽車開始測試,2012年3月到2013年12月,美國先后有四個州通過了自動駕駛汽車可上路測試的法律。
2011年,IBM機器人Watson,參加美國智力節(jié)目Jeopardy,挑戰(zhàn)兩位人類選手Ken和Brad,獲勝。
2011年,深度學習(Deep Learning) 引爆了學界,深度神經(jīng)網(wǎng)絡,ensemble learning, 增強學習這些高度依賴數(shù)據(jù)規(guī)模的算法得到應用。 年度大事件是 “谷歌大腦” 項目實現(xiàn)了機器系統(tǒng)對各種不同類型貓圖像的自動識別,正確率與人類判斷接近。
2012年11月,大型國際科研合作項目“千人基因組計劃” 二期目標完成,這一成果將有助于更廣泛地分析與疾病有關(guān)的基因變異,改善全球人類健康狀況。2013 IBM Watson系統(tǒng),微軟小冰,蘋果Siri全面開花,標志著大數(shù)據(jù)進入深層價值階段。
2014年中,善解人意會聊天的微軟機器人小冰出生。
2015年底,Google開源智能引擎Tensorflow。 我只列舉了我熟悉的領(lǐng)域標志性事件,實際上每一年每個領(lǐng)域這個列表可以鋪滿一頁。
2大數(shù)據(jù)仍然是巨人游戲每次重要的技術(shù)革新都帶給市場一次重新洗牌的機會。這次革新體現(xiàn)尤為突出,值得注意的是這次變革開源社區(qū)一開始就參與進來,并且始終在技術(shù)層面上推動。這一點不同造成影響非常深刻,甚至改變了游戲規(guī)則。
第一就是傳統(tǒng)巨頭和初創(chuàng)公司之間的硬件資源壁壘變的不明顯了。Hadoop問世之初被稱為’窮人的大數(shù)據(jù)’,因為可以低成本使用廉價硬件堆疊計算能力,給那些買不起IBM小型機的企業(yè),特別是創(chuàng)業(yè)公司,與巨頭競爭的機會。另外網(wǎng)絡和智能設備的普及讓數(shù)據(jù)的流通屬性發(fā)揮的淋漓盡致,一個熱門服務短時間就能吸收巨大的數(shù)據(jù)流量。 這其間很多創(chuàng)業(yè)公司迅速從幾人小團隊發(fā)展成獨角獸公司。
相對小公司的熱情擁抱,大公司用謹慎的步伐適應這個轉(zhuǎn)變,特別是傳統(tǒng)行業(yè)。第一懷疑開源產(chǎn)品的穩(wěn)定性和安全性,第二大家習慣了付費從廠商得到支持,而不是自己參與到工具維護開發(fā),甚至回饋技術(shù)社區(qū)??墒且坏┒冗^轉(zhuǎn)型期,大公司充分利用自己的渠道優(yōu)勢,資源優(yōu)勢,會想盡辦法把大數(shù)據(jù)變成巨人游戲。技術(shù)只是入場劵,在所有門檻里,這是最低的一道。巨人的游戲考驗的是裝備,耐力,人才(數(shù)據(jù)分析師),業(yè)務積累,那些成功的小公司的絕不是憑技術(shù)勝出。
大公司的優(yōu)勢之一是積累深厚,后勁足。大公司還有個優(yōu)勢是,有足夠體量消化大數(shù)據(jù)的能量。如果公司業(yè)務線豐富,比如阿里、騰訊、百度、平安等,同一份數(shù)據(jù)在多個業(yè)務部門都可以釋放一次能量,這給了大公司更多空間對數(shù)據(jù)精耕細作。
3不要把數(shù)據(jù)本身當作唯一壁壘,建立自己的數(shù)據(jù)閉環(huán)數(shù)據(jù)是非常脆弱的核心競爭力,數(shù)據(jù)本身不管多么大,無法支撐一個公司的長久運營。脆弱的原因是收集成本與復制成本極度不對等,特別是當前監(jiān)管落后市場很多,一家電商網(wǎng)站一年的交易情況一個盤陣就可以塞滿;在線地圖廠商走遍每條街道手工采集的POI數(shù)據(jù)一個星期就被爬蟲收入囊中。公司在制定數(shù)據(jù)戰(zhàn)略的時候要認真考慮這種不對等,多層布局要把數(shù)據(jù)資產(chǎn)持久化運營和精細化運營。這方面的例子很多,實際上回顧2010-2015的互聯(lián)網(wǎng)的圈地狂潮,大伙兒都在做的兩件事就是:搶占入口,自建閉環(huán)。為了搶占入口各種地推燒錢,明爭暗斗無需多言。入口搶到了閉環(huán)的建立更困難。典型的數(shù)據(jù)閉環(huán)是:數(shù)據(jù)在消費端生成,通過交易、服務渠道完成采集,經(jīng)過清洗匯總進入倉庫,加工分析應用到業(yè)務流程,市場反饋再通過消費端回來。這個閉環(huán)對業(yè)務流程的增量改進意義重大。
說到閉環(huán)建設,亞馬遜和eBay 5年間的地位更替很有代表性。2015年,亞馬遜值剛剛超過了3000億美元,eBay曾經(jīng)是亞馬遜的主要競爭對手,在金融危機的2008年,兩家公司的市值還不相上下,但是現(xiàn)在只是它市值的四分之一。這5年發(fā)生了什么?亞馬遜是非常在意渠道建設和閉環(huán)打造,除了在線交易,在云計算,物流,支付,智能硬件,電子出版,新媒體都有大量投入,相比之下eBay的資源高度集中在自己的主營業(yè)務上。1995~2000年互聯(lián)網(wǎng)剛剛起步,亞馬遜采取的直營方式便于培養(yǎng)早期的用戶,但到2001~2007年電商快速發(fā)展,搶到流量就是搶到錢,eBay這樣的輕資產(chǎn)模式很快就能實現(xiàn)變現(xiàn),所以它也是最先盈利的電商之一,此時亞馬遜是落后的。2008年的金融危機之后,電商行業(yè)又經(jīng)歷了新的變化,交易額高速增長的時代告一段落,公司價值的競爭由過去的單純交易額和用戶驅(qū)動變成了價值鏈經(jīng)營驅(qū)動,而實現(xiàn)了閉環(huán)經(jīng)營的亞馬遜的市值又實現(xiàn)了反超。2015年第二季度,亞馬遜服務收入已經(jīng)超過60億美元,其中三分之一來自云服務,其他的來源還包括云平臺、物流、廣告,這部分業(yè)務可能會成為亞馬遜未來盈利能力的主要來源。
4讓大數(shù)據(jù)工作落地大數(shù)據(jù)最關(guān)鍵的一個環(huán)節(jié)是數(shù)據(jù)解讀。如果并不懂數(shù)據(jù)的作用時,他們就不會參與,當他們不參與時,數(shù)據(jù)就沒有價值。數(shù)據(jù)"數(shù)據(jù)分析師"團隊的工作如果不能落在實處,前面所有環(huán)節(jié)都是徒勞。
Airbnb公司的例子為數(shù)據(jù)團隊如何推廣工作結(jié)果提供了很好的范本。
Airbnb是成立于2008年8月的旅行房屋租賃公司,Aifbnd非常有遠見,在團隊只有7個人的時候就有了專職大數(shù)據(jù)工程師,公司發(fā)展中每一次重大決策,數(shù)據(jù)團隊都發(fā)揮了重要作用。在早期團隊規(guī)模小的時候,大數(shù)據(jù)團隊工作模式是集中式的,數(shù)據(jù)分析師團隊的意見可以很快傳達到?jīng)Q策層,業(yè)務端的反饋也同樣。隨著公司成長,溝通鏈條變得越來越長,數(shù)據(jù)團隊有被懸掛的感覺。其他同事不明白如何和我們互動,其他人對我們沒有完全的理解。隨著時間的推移,數(shù)據(jù)團隊被看成一種靜態(tài)資源,被要求提供數(shù)據(jù),而沒有能夠主動思考未來的機會。隨后數(shù)據(jù)團隊被重新組織。仍然遵循集中的管理,但是走出自己的小組,進入每個需求部門,直接同工程師、設計師、產(chǎn)品經(jīng)理、營銷人員等等溝通。這樣做增加了整個公司的數(shù)據(jù)利用率,也使數(shù)據(jù)科學家成為積極的合作伙伴。如今Airbnb用戶遍布190個國家近34000個城市,2015年2月28日,估值將達到200億美元。
5相信數(shù)據(jù),不憑感覺決策以往的分析模型大多是大模型+小數(shù)據(jù),我們對模型本身做很多的假設和約束,人為干預在抽樣環(huán)節(jié)已經(jīng)開始,在結(jié)果出來前就已經(jīng)針對預期輸出準備好可能的解釋。大數(shù)據(jù)時代有個明顯的特點是分析手段趨向粗暴簡單。無需抽樣,也不對分布做太多假設,用全樣本輸入;以深度神經(jīng)網(wǎng)絡為代表的大數(shù)據(jù)模型對解釋性的要求降到最低。這種大數(shù)據(jù)+小模型在很多領(lǐng)域取得了成功,特別是在決策短的情況下,只要數(shù)據(jù)量足夠大,可以得到一些直接的洞見。
2006年以前,賽林格受命用大數(shù)據(jù)為亞馬遜增加營收,那時亞馬遜作為單純的在線零售商并不為起平臺上的商家做廣告,塞林格認為在廣告銷售有很大的利潤潛力,于是將這件事匯報給了自己的老板貝索斯,后者認為這是個愚蠢的主意 “我們是零售商。為什么要銷售展示廣告?”。盡管貝索斯不喜歡也不支持這個想法,但是他允許賽林格的團隊在網(wǎng)站上進行小規(guī)模測試,結(jié)果成為了亞馬遜有史以來最盈利的項目,他們把協(xié)同過濾,結(jié)構(gòu)最簡單的推薦算法,做成了大數(shù)據(jù)一個經(jīng)典案例。
6大數(shù)據(jù)不是良藥 大數(shù)據(jù)還在進化大數(shù)據(jù)決策的另一個極端是過分專注于大數(shù)據(jù)的技術(shù)討論,而忽略了一個基本事實:大數(shù)據(jù)不會改變業(yè)務維度的復雜性。盡管大的趨勢是很多業(yè)務問題可以變成技術(shù)問題來解決,但是經(jīng)歷十年快速發(fā)展,我們?nèi)匀惶幱诖髷?shù)據(jù)的初期階段。這個時期大數(shù)據(jù)的解決問題思路仍然是橫向的,試圖從量上突破。已經(jīng)積累了大量數(shù)據(jù)的企業(yè),可以快速兌現(xiàn)歷史紅利,當前的火爆很大程度是確實很大一部分過去二三十年甚至更久數(shù)據(jù)積累的一次集中釋放。當淺層數(shù)據(jù)價值挖掘干凈后,如果沒有健康持久的業(yè)務模式,問題還在哪里?,F(xiàn)在我們的大數(shù)據(jù)在五年后會變成小數(shù)據(jù),MapReduce,Hadoop,stream computing等概念會變成理所當然的基本操作,甚至集成在語言本身,在業(yè)務層面感知不到它們的存在?,F(xiàn)在或許是大數(shù)據(jù)最熱鬧的時代,當在大數(shù)據(jù)真正回歸業(yè)務的時候,才是大數(shù)據(jù)最好的時代。能活到那一天的都是從現(xiàn)在開始把大數(shù)據(jù)往深處做的人。
cda數(shù)據(jù)分析師協(xié)會在順應大數(shù)據(jù)、云計算的潮流下發(fā)起成立的職業(yè)簡稱。指在互聯(lián)網(wǎng)、零售、金融、電信、醫(yī)學、旅游等行業(yè)專門從事數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)分析等工作,并為企業(yè)提供決策的新型數(shù)據(jù)人才。CDA數(shù)據(jù)分析師系統(tǒng)培訓覆蓋了國內(nèi)企業(yè)招聘數(shù)據(jù)分析師所要求的技能,包括統(tǒng)計知識、軟件應用(SPSS/SAS/PYTHON等)、數(shù)據(jù)挖掘、數(shù)據(jù)庫、大數(shù)據(jù)、數(shù)據(jù)報告等。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11