
大數(shù)據(jù)產(chǎn)業(yè)是一個龐大的閉環(huán) 需構(gòu)建大數(shù)據(jù)領(lǐng)域
只要打上大數(shù)據(jù)的標(biāo)簽,一些公司的估值動輒會翻好幾倍。高估值伴隨的是巨大的泡沫,在高估值的驅(qū)動下,許多企業(yè)的發(fā)展遠(yuǎn)遠(yuǎn)無法回歸企業(yè)的本質(zhì)。
大數(shù)據(jù)的概念在國內(nèi)興起才幾年時間,很多人可能還不太清楚大數(shù)據(jù)的具體內(nèi)涵。就整體產(chǎn)業(yè)而言,大數(shù)據(jù)產(chǎn)業(yè)是一個龐大的閉環(huán),涉及數(shù)據(jù)源、場景化應(yīng)用、可視化展示以及數(shù)據(jù)安全。
數(shù)據(jù)源環(huán)節(jié)主要解決數(shù)據(jù)的儲存和管理問題。每個細(xì)分產(chǎn)業(yè)領(lǐng)域都有各自的大數(shù)據(jù),海量數(shù)據(jù)的存放、檢索、清洗、流通非常關(guān)鍵。此外,數(shù)據(jù)就像是一座座礦山,如何把這些礦山轉(zhuǎn)化成可變現(xiàn)的資源?這即是數(shù)據(jù)的場景化主要解決的問題。
比如現(xiàn)在很多企業(yè)通過互聯(lián)網(wǎng)做CRM(客戶關(guān)系管理)精準(zhǔn)營銷,需要分析用戶的行為并對用戶進(jìn)行標(biāo)簽和分類。消費(fèi)者在超市里選擇一件商品時,可能還對關(guān)聯(lián)性商品有很大的需求,貨架的擺放需要有大數(shù)據(jù)提供關(guān)聯(lián)性的指導(dǎo),這就是典型的場景化應(yīng)用。
在此基礎(chǔ)上,還要解決數(shù)據(jù)的可視化問題去跟用戶交互,因?yàn)闊o形的數(shù)據(jù)需要被生動地展現(xiàn)出來才有價值。無形的數(shù)據(jù)能夠通過有形的圖形、圖表及各種轉(zhuǎn)換方式來展現(xiàn),至此數(shù)據(jù)便初步具有了資產(chǎn)屬性,數(shù)據(jù)安全的重要性也隨之凸顯。在數(shù)據(jù)產(chǎn)業(yè)鏈之中,數(shù)據(jù)的誕生、存儲、場景化應(yīng)用、可視化展示以及信息安全構(gòu)成了一個龐大的版圖。
大數(shù)據(jù)最早起源于氣象領(lǐng)域,但數(shù)據(jù)的存放一直是一個很大的問題。直到分布式存儲技術(shù)的出現(xiàn),極大降低了數(shù)據(jù)儲存的成本,提高了數(shù)據(jù)獲取的效率,從而增加了數(shù)據(jù)使用的價值。
大數(shù)據(jù)的概念最早可以追溯到2001年麥肯錫的一份報告。到了2009年,美國將大數(shù)據(jù)上升為國家戰(zhàn)略資源。2012年左右大數(shù)據(jù)開始在中國嶄露頭角。隨后2013-14年大數(shù)據(jù)行業(yè)進(jìn)入一個泡沫期。當(dāng)時很多企業(yè)都爭相為自己貼上大數(shù)據(jù)的標(biāo)簽,但實(shí)際上并沒有去做大數(shù)據(jù)的事情。比如,一些做統(tǒng)計(jì)的公司以大數(shù)據(jù)自居,宣稱自己開始涉足大數(shù)據(jù)的挖掘和清洗,但實(shí)際上好多公司還做原來一模一樣的事情,卻大大提升了估值水平和溢價水平。2014年上半年以后,行業(yè)泡沫有所擠壓,在這個過程中大數(shù)據(jù)也漸漸從概念走向清晰。
我認(rèn)為,大數(shù)據(jù)不是單指具體的技術(shù)而更多是一種思維。在傳統(tǒng)思維中,我們對數(shù)據(jù)的認(rèn)識通常停留在因果關(guān)系的表層,關(guān)注更多的是如何從A得到B。而在大數(shù)據(jù)的語境下,數(shù)據(jù)之間的相關(guān)性逐漸顯露出潛在的商業(yè)邏輯。比如:研究美國沃爾瑪?shù)臄?shù)據(jù)發(fā)現(xiàn),購買尿不濕的顧客與啤酒高度關(guān)聯(lián)。
此外,比較知名的案例還有谷歌流感趨勢預(yù)測。谷歌認(rèn)為,人們輸入的搜索關(guān)鍵詞代表了他們的即時需要,能夠反映出用戶面臨的具體情況。用戶只要輸入流感相關(guān)的關(guān)鍵詞,系統(tǒng)就會展開跟蹤分析。盡管有很多人批評谷歌預(yù)測存在各種問題,在實(shí)踐中,谷歌流感預(yù)測趨勢與美國疾病控制和預(yù)防中心的報告還是存在很大的相關(guān)性。
達(dá)晨創(chuàng)投在2014年開始布局大數(shù)據(jù)行業(yè),到現(xiàn)在為止已經(jīng)在大數(shù)據(jù)領(lǐng)域投資了12家企業(yè),從數(shù)據(jù)源至平臺應(yīng)用的整體生態(tài),覆蓋大數(shù)據(jù)全產(chǎn)業(yè)鏈。2014年,大數(shù)據(jù)行業(yè)的投資還沒有現(xiàn)在這么火熱。達(dá)晨的投資邏輯很清晰——由點(diǎn)到面構(gòu)建大數(shù)據(jù)領(lǐng)域的生態(tài)圈。我們非常關(guān)心數(shù)據(jù)源的問題,我們也特別關(guān)注有能力促進(jìn)數(shù)據(jù)流通的企業(yè)。目前,國內(nèi)的各個數(shù)據(jù)源像是孤立的島嶼,不同機(jī)構(gòu)、部門的信息分散在這些孤島上。數(shù)據(jù)經(jīng)過流通才有價值,單一分散的數(shù)據(jù)價值極其有限。在達(dá)晨大數(shù)據(jù)系的版圖上,包括國內(nèi)第一家“數(shù)據(jù)銀行”數(shù)據(jù)堂,國內(nèi)最年輕的博導(dǎo)周濤創(chuàng)建的針對企業(yè)風(fēng)險控制的數(shù)聯(lián)銘品,IBM中國杰出十大工程師之一創(chuàng)建的全球的工業(yè)大數(shù)據(jù)企業(yè)昆侖數(shù)據(jù),多次跟隨國家領(lǐng)導(dǎo)人出訪的美林?jǐn)?shù)據(jù),公安部大數(shù)據(jù)平臺中心中奧科技,國產(chǎn)數(shù)據(jù)庫的領(lǐng)導(dǎo)者南大通用等等。
從整個大數(shù)據(jù)行業(yè)在中國的發(fā)展的階段來看,2013-14年經(jīng)歷了概念從模糊到清晰的過程,而2015年才真正落地。我個人認(rèn)為,在整個大數(shù)據(jù)行業(yè)當(dāng)中,數(shù)據(jù)源會是一個風(fēng)口,涉及數(shù)據(jù)的采集、清洗、加工、交易、交換。簡言之,即是數(shù)據(jù)的流動。
數(shù)據(jù)堂是我們投的一家企業(yè)。數(shù)據(jù)堂的商業(yè)模式,簡言之即是將散落的數(shù)據(jù)融合起來進(jìn)行價值再造。數(shù)據(jù)堂提出了一個“數(shù)據(jù)銀行”概念,就是說:通過一個數(shù)據(jù)銀行的平臺,散落在各地的數(shù)據(jù)可以實(shí)現(xiàn)價值交換;在這里數(shù)據(jù)發(fā)揮了和現(xiàn)金一樣的功能,等量存儲可以在企業(yè)之間交互提取。在這層意義上,數(shù)據(jù)就變成了一種資產(chǎn)。數(shù)據(jù)堂是國內(nèi)第一家提出這種模式的企業(yè),旨在把數(shù)據(jù)作為一種資產(chǎn),通過他們的加工然后進(jìn)行交易。原始數(shù)據(jù)像是礦山,數(shù)據(jù)存放到這里之后,還需要進(jìn)行提煉。此外,企業(yè)既是數(shù)據(jù)的購買者,也可以作為數(shù)據(jù)的出售者。當(dāng)前數(shù)據(jù)的定價沒有統(tǒng)一標(biāo)準(zhǔn),只能根據(jù)需求來定義價格。企業(yè)將數(shù)據(jù)放到數(shù)據(jù)堂之后,彼此之間就可以實(shí)現(xiàn)握手交易。
數(shù)據(jù)堂獲取數(shù)據(jù)有幾個渠道,包括:線上網(wǎng)絡(luò)、線上線下眾包平臺以及向特定渠道購買。線上數(shù)據(jù)靠網(wǎng)絡(luò)爬蟲可以抓取,但線下的數(shù)據(jù)需要大量的人員去采集和匯聚。經(jīng)過6年的沉淀,數(shù)據(jù)堂的線下眾包平臺已經(jīng)有50萬人的規(guī)模。
數(shù)據(jù)眾包的意義,類似游戲中的打怪升級。以智能識別為例,眾包過程中搜集越多的人臉照片,系統(tǒng)就能獲得越多的學(xué)習(xí),從而提高識別的精度和準(zhǔn)度。然而,數(shù)據(jù)的價值并不是通過數(shù)量來體現(xiàn),而是針對B端(企業(yè)端)客戶的需求進(jìn)行加工和融合,于是數(shù)據(jù)就有了技術(shù)附加值。比如,氣象數(shù)據(jù)、地理數(shù)據(jù)、人流數(shù)據(jù)融合打包可以開發(fā)成一種標(biāo)準(zhǔn)化產(chǎn)品,它可以服務(wù)于商鋪的選址,也可以為超市的貨架擺放提供及時性參考。但這個工作有一定的門檻,一方面是數(shù)據(jù)獲得的門檻,另一方面是整合加工的技術(shù)壁壘。數(shù)據(jù)的整合加工不僅要理解數(shù)據(jù)的本質(zhì),還要像產(chǎn)品經(jīng)理一樣對不同行業(yè)的數(shù)據(jù)有一定的敏感和洞察,從而才能針對不同的場景化應(yīng)用開發(fā)相應(yīng)的標(biāo)準(zhǔn)化產(chǎn)品。粗略看來,數(shù)據(jù)產(chǎn)品經(jīng)理這份工作通常需要在數(shù)據(jù)行業(yè)沉淀4-5年時間才能勝任。
到了2015年,大數(shù)據(jù)行業(yè)開始瘋狂生長。2014年大數(shù)據(jù)公司還不到100家,一年時間增加了500多家。此外,只要打上大數(shù)據(jù)的標(biāo)簽,一些公司的估值動輒會翻好幾倍。高估值伴隨的是巨大的泡沫,在高估值的驅(qū)動下,許多企業(yè)的發(fā)展遠(yuǎn)遠(yuǎn)無法回歸企業(yè)的本質(zhì)。一些企業(yè)A輪剛完成,幾個月后又是B輪,短短時間估值就增加數(shù)倍,但高估值對于初創(chuàng)團(tuán)隊(duì)而言并不一定是好事。在這樣的背景下,創(chuàng)業(yè)企業(yè)容易膨脹和浮躁,可能導(dǎo)致過度擴(kuò)張,結(jié)果是企業(yè)供給與市場需求之間的脫節(jié)。
一方面,企業(yè)可能會開發(fā)出一些太超前的產(chǎn)品,但市場還沒發(fā)展到可以吸收的階段。不同行業(yè)的發(fā)展水平影響和制約著大數(shù)據(jù)在特定行業(yè)領(lǐng)域的場景化應(yīng)用。當(dāng)其他行業(yè)的生態(tài)還沒能達(dá)到一個維度時,大數(shù)據(jù)的發(fā)展不能太超前,因?yàn)榇髷?shù)據(jù)的核心終究還是要服務(wù)特定行業(yè)領(lǐng)域的企業(yè)。大數(shù)據(jù)行業(yè)只有擁抱其他行業(yè)才能生存。比如,現(xiàn)在很火的一個概念叫做智能制造,大家也都在提柔性加工。然而,在大多數(shù)制造企業(yè)還沒有實(shí)現(xiàn)自動化升級的大環(huán)境下,大數(shù)據(jù)又如何服務(wù)于智能制造的場景化應(yīng)用呢?
另一方面,企業(yè)的技術(shù)和研發(fā)能力可能達(dá)不到市場的預(yù)期?,F(xiàn)在大家正在興頭上競相擁抱大數(shù)據(jù),但如果大家發(fā)現(xiàn)一些大數(shù)據(jù)產(chǎn)品與自己的預(yù)期價值出現(xiàn)嚴(yán)重落差,一旦大數(shù)據(jù)的承諾無法兌現(xiàn),行業(yè)口碑就會受到影響。
然而,那些真正專注于大數(shù)據(jù)價值的企業(yè)依然非常值得堅(jiān)守。在這樣的企業(yè)里,首席數(shù)據(jù)官的技術(shù)背景非常扎實(shí)。他們通常由兩類人群構(gòu)成,一類是BAT出身的技術(shù)人才,另一類是從硅谷回來的技術(shù)精英。此外,盡管企業(yè)需求還無法與大數(shù)據(jù)產(chǎn)品實(shí)現(xiàn)無縫對接,但大數(shù)據(jù)企業(yè)與用戶之間的配合正在逐步完善。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09