
沒(méi)有數(shù)據(jù)科學(xué)家大數(shù)據(jù)就玩不轉(zhuǎn)了
數(shù)據(jù)科學(xué)家被媒體譽(yù)為21世紀(jì)最性感的職業(yè),是企業(yè)界身價(jià)不菲、一將難求的的超級(jí)明星,這嚇跑了很多準(zhǔn)備嘗試大數(shù)據(jù)的企業(yè),實(shí)際上沒(méi)有數(shù)據(jù)科學(xué)家企業(yè)一樣可以玩轉(zhuǎn)大數(shù)據(jù)。
如今, 一談到大數(shù)據(jù), 一個(gè)普遍的說(shuō)法就是人才的缺乏。 數(shù)據(jù)科學(xué)家成為了21世紀(jì)最性感的職業(yè)等等。 哈佛商業(yè)評(píng)論以及咨詢(xún)公司麥肯錫的報(bào)告都這么說(shuō), 再加上數(shù)據(jù)科學(xué)家們自身也樂(lè)意被打上這樣的標(biāo)簽。
然而, 這種說(shuō)法, 也讓很多準(zhǔn)備考慮大數(shù)據(jù)戰(zhàn)略的企業(yè)面對(duì)大數(shù)據(jù)的機(jī)會(huì)望而卻步了。 那么, 如果缺少數(shù)據(jù)科學(xué)家, 企業(yè)的大數(shù)據(jù)就真得玩兒不轉(zhuǎn)了嗎? 其實(shí)也未必。
這里, 當(dāng)然不是說(shuō)數(shù)據(jù)科學(xué)家不重要。 相反, 數(shù)據(jù)科學(xué)家這個(gè)職業(yè)在大數(shù)據(jù)時(shí)代非常重要。 在企業(yè)中, 數(shù)據(jù)科學(xué)家的工作, 實(shí)際上是聯(lián)系企業(yè)的IT技術(shù)和企業(yè)所在行業(yè)專(zhuān)業(yè)知識(shí)的紐帶。 這樣的知識(shí)交集上的人才, 本身確實(shí)匱乏, 而且, 即使大數(shù)據(jù)又再大的發(fā)展,同時(shí)具備這樣的知識(shí)的人才也還是少數(shù)。 然而, 就像我們?cè)谟?jì)算機(jī)行業(yè)發(fā)展的早期, 不能說(shuō)因?yàn)閱滩妓梗?蓋茨這樣的人才太少就制約了行業(yè)發(fā)展一樣。 如今, 街邊柯達(dá)店的小伙子都能用PS修人像, 而我們也不需要要求柯達(dá)店的小伙子具備編寫(xiě)圖像處理軟件能力。
大數(shù)據(jù)時(shí)代也是一樣, Google, Twitter, Facebook那樣的大公司, 可以負(fù)擔(dān)得起那些高精尖的數(shù)據(jù)科學(xué)家, 而小企業(yè), 也可以有自己的方式來(lái)更好地利用數(shù)據(jù)。 下面, 以電子商務(wù)的公司為例子, 結(jié)合數(shù)據(jù)科學(xué)家的工作, 來(lái)看看如何能夠在企業(yè)現(xiàn)有能力范圍內(nèi)進(jìn)行數(shù)據(jù)方面的工作。
數(shù)據(jù)科學(xué)家的工作, 大致分為三個(gè)方面:
第一, 數(shù)據(jù)架構(gòu)的搭建, 第二, 數(shù)據(jù)模型的建立, 第三, 數(shù)據(jù)分析。
下面我們來(lái)看看那些雇不起或找不著數(shù)據(jù)科學(xué)家的屌絲企業(yè)如何玩轉(zhuǎn)大數(shù)據(jù):
首先, 確定企業(yè)對(duì)數(shù)據(jù)的需求點(diǎn)。 對(duì)絕大部分商業(yè)企業(yè)來(lái)說(shuō), 其實(shí)每個(gè)業(yè)務(wù)經(jīng)理都可以告訴你, 他們所需要的數(shù)據(jù)就是用戶(hù)行為的數(shù)據(jù), 比如, 用戶(hù)購(gòu)買(mǎi)行為, 用戶(hù)對(duì)促銷(xiāo)或者廣告的反應(yīng), 用戶(hù)的社交信息等等, 基本上, 每一類(lèi)這樣的信息, 都可以比較容易的進(jìn)行歸類(lèi)。
這里的關(guān)鍵, 就是盡量把需要的數(shù)據(jù)范圍進(jìn)行限定, 這樣就可以設(shè)定一些簡(jiǎn)單的數(shù)據(jù)輸入模板, 從而把數(shù)據(jù)采集和數(shù)據(jù)整理問(wèn)題簡(jiǎn)單化。 這里可以采用一些開(kāi)源工具, 如Hadoop, Hbase, Hive, Pig等, 把各類(lèi)數(shù)據(jù)進(jìn)行整合。 2/8 原則一般是適用的, 也就是, 80%的進(jìn)行運(yùn)營(yíng)支撐的需求可以來(lái)自于20%的數(shù)據(jù)。 對(duì)企業(yè)來(lái)說(shuō), IT技術(shù)人員和業(yè)務(wù)專(zhuān)家共同的協(xié)作, 加上一部分外部咨詢(xún)的幫助, 應(yīng)該可以搭建一個(gè)可用的架構(gòu)。
數(shù)據(jù)模型的建立
數(shù)據(jù)科學(xué)家的另一部分工作就是數(shù)據(jù)模型的建立。 這些模型可能是描述型的模型, 也可能是預(yù)測(cè)性的模型。 這部分的工作, 也是數(shù)據(jù)科學(xué)家經(jīng)常被神化的部分。 其實(shí), 這部分工作, 比如說(shuō)推薦系統(tǒng), 用戶(hù)個(gè)性化系統(tǒng)等等。 數(shù)據(jù)科學(xué)家所做的大量工作, 在于提取數(shù)據(jù)的“特征”, 選擇合適的模型, 并把它們輸入模型, 等待模型輸出結(jié)果, 再驗(yàn)證, 調(diào)整特征的循環(huán)。 這部分的工作, 需要第一, 熟悉各類(lèi)統(tǒng)計(jì)模型或者機(jī)器學(xué)習(xí)模型的建立。 第二, 也是更重要的一點(diǎn), 就是行業(yè)知識(shí)的了解。 比如一個(gè)推薦系統(tǒng), 最重要的就是把提取用戶(hù)特征, 提取商品的特征。 如果建模的人對(duì)行業(yè)知識(shí)不了解的話(huà), 那么模型就會(huì)很龐大和復(fù)雜, 也未必精確。 在這里, 行業(yè)的專(zhuān)家, 盡管對(duì)建模未必很精通, 他們的市場(chǎng)感覺(jué)往往是選擇合適特征值的關(guān)鍵。
因此, 對(duì)電商企業(yè)來(lái)說(shuō), 招幾個(gè)學(xué)統(tǒng)計(jì)的員工(或者外包), 再配合企業(yè)內(nèi)部的行業(yè)專(zhuān)家, 也可以建一些適合企業(yè)需要的基本模型。 也許沒(méi)有Google或者Facebook那么地精確, 但是對(duì)絕大部分企業(yè)來(lái)說(shuō), 也夠用了。 這也不失為是一條在找不到合適的數(shù)據(jù)科學(xué)家(事實(shí)上精通本行業(yè)又精通建模的人才本來(lái)也是鳳毛麟角)的情況下的解決之道。
數(shù)據(jù)分析
數(shù)據(jù)分析的本質(zhì), 是把“數(shù)據(jù)”變成“信息”, 并從中發(fā)現(xiàn)對(duì)企業(yè)運(yùn)營(yíng)有價(jià)值的東西。 這其實(shí)和任何理科或者工科的“觀(guān)察 — 歸納 —關(guān)聯(lián) — 分析 —驗(yàn)證”的研究方法從本質(zhì)上是一致的。 從這個(gè)角度來(lái)講, 行業(yè)的專(zhuān)業(yè)知識(shí), 在數(shù)據(jù)分析的時(shí)候, 更加重要。
即使你把歐洲大型強(qiáng)子對(duì)撞機(jī)的數(shù)據(jù)給數(shù)據(jù)科學(xué)家, 他也發(fā)現(xiàn)不了“上帝粒子”。
國(guó)內(nèi)的很多人都會(huì)津津樂(lè)道 美國(guó)百貨公司Target通過(guò)數(shù)據(jù)分析給懷孕少女推送嬰兒產(chǎn)品的例子,而很多數(shù)據(jù)分析師或者數(shù)據(jù)科學(xué)家在提到這樣的例子的時(shí)候, 也在有意無(wú)意的進(jìn)行誤導(dǎo)。 其實(shí), 如果沒(méi)有對(duì)用戶(hù)和產(chǎn)品方面的專(zhuān)業(yè)知識(shí), 光靠數(shù)據(jù)分析或者數(shù)據(jù)模型, 是很難做到的。 而事實(shí)上, 任何機(jī)器生成的模型, 要想實(shí)用的話(huà), 也都得需要人工在反饋路徑上進(jìn)行一定程度上的調(diào)整。
在數(shù)據(jù)分析領(lǐng)域, 已經(jīng)有很多的分析工具。 然而, 現(xiàn)在的這些工具, 大多數(shù)也還是比較復(fù)雜。 需要類(lèi)似數(shù)據(jù)科學(xué)家或者數(shù)據(jù)分析師這樣的專(zhuān)門(mén)人員來(lái)使用。 由于企業(yè)精細(xì)化運(yùn)營(yíng)的程度普遍不高。 數(shù)據(jù)分析師或者是BI的分析師本來(lái)就稀缺, 更不要說(shuō)精通行業(yè)專(zhuān)業(yè)領(lǐng)域知識(shí)同時(shí)具備數(shù)據(jù)分析工具使用能力的人才了。 一個(gè)解決的方式, 就是把常用的分析盡量模板化, 數(shù)據(jù)的整理盡量簡(jiǎn)化。 盡量采用Excel這樣簡(jiǎn)單大眾的分析工具。 歸根結(jié)底, 企業(yè)進(jìn)行數(shù)據(jù)分析的目的, 是為了經(jīng)營(yíng)服務(wù)的。 簡(jiǎn)單的工具, 在使用,分享和溝通方面都有優(yōu)勢(shì)。 這樣的解決方案當(dāng)然不算得完美, 但是, 如果能讓具備豐富行業(yè)經(jīng)驗(yàn)的專(zhuān)家以行業(yè)經(jīng)驗(yàn)來(lái)彌補(bǔ)數(shù)據(jù)分析工具的不足, 對(duì)企業(yè)來(lái)說(shuō), 也算得上是一個(gè)在缺乏數(shù)據(jù)科學(xué)家情況下的可以從數(shù)據(jù)分析中獲益的方式。
在大數(shù)據(jù)時(shí)代, 數(shù)據(jù)科學(xué)家的重要性當(dāng)然是毋庸置疑的。 不過(guò), 就像網(wǎng)站內(nèi)容管理系統(tǒng)那樣, 大型網(wǎng)站可以雇頂級(jí)工程師來(lái)自建系統(tǒng)。 小企業(yè)也可以利用WordPress這樣的系統(tǒng)來(lái)滿(mǎn)足自身的需求一樣。
企業(yè)在這個(gè)人才匱乏的大數(shù)據(jù)時(shí)代, 利用已有的工具, 結(jié)合自身對(duì)行業(yè)的專(zhuān)業(yè)知識(shí), 采取合適的策略, 同樣也可以從數(shù)據(jù)和數(shù)據(jù)分析中獲益。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10