
沒有數(shù)據(jù)科學家大數(shù)據(jù)就玩不轉(zhuǎn)了
數(shù)據(jù)科學家被媒體譽為21世紀最性感的職業(yè),是企業(yè)界身價不菲、一將難求的的超級明星,這嚇跑了很多準備嘗試大數(shù)據(jù)的企業(yè),實際上沒有數(shù)據(jù)科學家企業(yè)一樣可以玩轉(zhuǎn)大數(shù)據(jù)。
如今, 一談到大數(shù)據(jù), 一個普遍的說法就是人才的缺乏。 數(shù)據(jù)科學家成為了21世紀最性感的職業(yè)等等。 哈佛商業(yè)評論以及咨詢公司麥肯錫的報告都這么說, 再加上數(shù)據(jù)科學家們自身也樂意被打上這樣的標簽。
然而, 這種說法, 也讓很多準備考慮大數(shù)據(jù)戰(zhàn)略的企業(yè)面對大數(shù)據(jù)的機會望而卻步了。 那么, 如果缺少數(shù)據(jù)科學家, 企業(yè)的大數(shù)據(jù)就真得玩兒不轉(zhuǎn)了嗎? 其實也未必。
這里, 當然不是說數(shù)據(jù)科學家不重要。 相反, 數(shù)據(jù)科學家這個職業(yè)在大數(shù)據(jù)時代非常重要。 在企業(yè)中, 數(shù)據(jù)科學家的工作, 實際上是聯(lián)系企業(yè)的IT技術(shù)和企業(yè)所在行業(yè)專業(yè)知識的紐帶。 這樣的知識交集上的人才, 本身確實匱乏, 而且, 即使大數(shù)據(jù)又再大的發(fā)展,同時具備這樣的知識的人才也還是少數(shù)。 然而, 就像我們在計算機行業(yè)發(fā)展的早期, 不能說因為喬布斯, 蓋茨這樣的人才太少就制約了行業(yè)發(fā)展一樣。 如今, 街邊柯達店的小伙子都能用PS修人像, 而我們也不需要要求柯達店的小伙子具備編寫圖像處理軟件能力。
大數(shù)據(jù)時代也是一樣, Google, Twitter, Facebook那樣的大公司, 可以負擔得起那些高精尖的數(shù)據(jù)科學家, 而小企業(yè), 也可以有自己的方式來更好地利用數(shù)據(jù)。 下面, 以電子商務的公司為例子, 結(jié)合數(shù)據(jù)科學家的工作, 來看看如何能夠在企業(yè)現(xiàn)有能力范圍內(nèi)進行數(shù)據(jù)方面的工作。
數(shù)據(jù)科學家的工作, 大致分為三個方面:
第一, 數(shù)據(jù)架構(gòu)的搭建, 第二, 數(shù)據(jù)模型的建立, 第三, 數(shù)據(jù)分析。
下面我們來看看那些雇不起或找不著數(shù)據(jù)科學家的屌絲企業(yè)如何玩轉(zhuǎn)大數(shù)據(jù):
首先, 確定企業(yè)對數(shù)據(jù)的需求點。 對絕大部分商業(yè)企業(yè)來說, 其實每個業(yè)務經(jīng)理都可以告訴你, 他們所需要的數(shù)據(jù)就是用戶行為的數(shù)據(jù), 比如, 用戶購買行為, 用戶對促銷或者廣告的反應, 用戶的社交信息等等, 基本上, 每一類這樣的信息, 都可以比較容易的進行歸類。
這里的關(guān)鍵, 就是盡量把需要的數(shù)據(jù)范圍進行限定, 這樣就可以設定一些簡單的數(shù)據(jù)輸入模板, 從而把數(shù)據(jù)采集和數(shù)據(jù)整理問題簡單化。 這里可以采用一些開源工具, 如Hadoop, Hbase, Hive, Pig等, 把各類數(shù)據(jù)進行整合。 2/8 原則一般是適用的, 也就是, 80%的進行運營支撐的需求可以來自于20%的數(shù)據(jù)。 對企業(yè)來說, IT技術(shù)人員和業(yè)務專家共同的協(xié)作, 加上一部分外部咨詢的幫助, 應該可以搭建一個可用的架構(gòu)。
數(shù)據(jù)模型的建立
數(shù)據(jù)科學家的另一部分工作就是數(shù)據(jù)模型的建立。 這些模型可能是描述型的模型, 也可能是預測性的模型。 這部分的工作, 也是數(shù)據(jù)科學家經(jīng)常被神化的部分。 其實, 這部分工作, 比如說推薦系統(tǒng), 用戶個性化系統(tǒng)等等。 數(shù)據(jù)科學家所做的大量工作, 在于提取數(shù)據(jù)的“特征”, 選擇合適的模型, 并把它們輸入模型, 等待模型輸出結(jié)果, 再驗證, 調(diào)整特征的循環(huán)。 這部分的工作, 需要第一, 熟悉各類統(tǒng)計模型或者機器學習模型的建立。 第二, 也是更重要的一點, 就是行業(yè)知識的了解。 比如一個推薦系統(tǒng), 最重要的就是把提取用戶特征, 提取商品的特征。 如果建模的人對行業(yè)知識不了解的話, 那么模型就會很龐大和復雜, 也未必精確。 在這里, 行業(yè)的專家, 盡管對建模未必很精通, 他們的市場感覺往往是選擇合適特征值的關(guān)鍵。
因此, 對電商企業(yè)來說, 招幾個學統(tǒng)計的員工(或者外包), 再配合企業(yè)內(nèi)部的行業(yè)專家, 也可以建一些適合企業(yè)需要的基本模型。 也許沒有Google或者Facebook那么地精確, 但是對絕大部分企業(yè)來說, 也夠用了。 這也不失為是一條在找不到合適的數(shù)據(jù)科學家(事實上精通本行業(yè)又精通建模的人才本來也是鳳毛麟角)的情況下的解決之道。
數(shù)據(jù)分析
數(shù)據(jù)分析的本質(zhì), 是把“數(shù)據(jù)”變成“信息”, 并從中發(fā)現(xiàn)對企業(yè)運營有價值的東西。 這其實和任何理科或者工科的“觀察 — 歸納 —關(guān)聯(lián) — 分析 —驗證”的研究方法從本質(zhì)上是一致的。 從這個角度來講, 行業(yè)的專業(yè)知識, 在數(shù)據(jù)分析的時候, 更加重要。
即使你把歐洲大型強子對撞機的數(shù)據(jù)給數(shù)據(jù)科學家, 他也發(fā)現(xiàn)不了“上帝粒子”。
國內(nèi)的很多人都會津津樂道 美國百貨公司Target通過數(shù)據(jù)分析給懷孕少女推送嬰兒產(chǎn)品的例子,而很多數(shù)據(jù)分析師或者數(shù)據(jù)科學家在提到這樣的例子的時候, 也在有意無意的進行誤導。 其實, 如果沒有對用戶和產(chǎn)品方面的專業(yè)知識, 光靠數(shù)據(jù)分析或者數(shù)據(jù)模型, 是很難做到的。 而事實上, 任何機器生成的模型, 要想實用的話, 也都得需要人工在反饋路徑上進行一定程度上的調(diào)整。
在數(shù)據(jù)分析領域, 已經(jīng)有很多的分析工具。 然而, 現(xiàn)在的這些工具, 大多數(shù)也還是比較復雜。 需要類似數(shù)據(jù)科學家或者數(shù)據(jù)分析師這樣的專門人員來使用。 由于企業(yè)精細化運營的程度普遍不高。 數(shù)據(jù)分析師或者是BI的分析師本來就稀缺, 更不要說精通行業(yè)專業(yè)領域知識同時具備數(shù)據(jù)分析工具使用能力的人才了。 一個解決的方式, 就是把常用的分析盡量模板化, 數(shù)據(jù)的整理盡量簡化。 盡量采用Excel這樣簡單大眾的分析工具。 歸根結(jié)底, 企業(yè)進行數(shù)據(jù)分析的目的, 是為了經(jīng)營服務的。 簡單的工具, 在使用,分享和溝通方面都有優(yōu)勢。 這樣的解決方案當然不算得完美, 但是, 如果能讓具備豐富行業(yè)經(jīng)驗的專家以行業(yè)經(jīng)驗來彌補數(shù)據(jù)分析工具的不足, 對企業(yè)來說, 也算得上是一個在缺乏數(shù)據(jù)科學家情況下的可以從數(shù)據(jù)分析中獲益的方式。
在大數(shù)據(jù)時代, 數(shù)據(jù)科學家的重要性當然是毋庸置疑的。 不過, 就像網(wǎng)站內(nèi)容管理系統(tǒng)那樣, 大型網(wǎng)站可以雇頂級工程師來自建系統(tǒng)。 小企業(yè)也可以利用WordPress這樣的系統(tǒng)來滿足自身的需求一樣。
企業(yè)在這個人才匱乏的大數(shù)據(jù)時代, 利用已有的工具, 結(jié)合自身對行業(yè)的專業(yè)知識, 采取合適的策略, 同樣也可以從數(shù)據(jù)和數(shù)據(jù)分析中獲益。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03