
我們無須更多的數(shù)據(jù)科學(xué)家 只須降低大數(shù)據(jù)使用門檻
這個國家急缺數(shù)據(jù)科學(xué)家”,目前幾乎所有關(guān)于大數(shù)據(jù)的文章都提出了這么一種觀點(diǎn)。廣受熱議的McKinsey公司2011年度調(diào)查指出許多機(jī)構(gòu)即缺少對大數(shù)據(jù)有深刻洞見和理解的人,也沒有運(yùn)用大數(shù)據(jù)來做出明智決斷并執(zhí)行的動力。
然而在這些討論中有些東西似乎被忽視了,那就是如何打破瓶頸進(jìn)而使得大數(shù)據(jù)能夠直接為企業(yè)家們所用。我們曾經(jīng)在軟件工業(yè)中做到過這一點(diǎn),我們能夠再次做到。
為了達(dá)成這個目標(biāo),透徹理解數(shù)據(jù)科學(xué)家在大數(shù)據(jù)中所扮演的角色是很重要的。目前,大數(shù)據(jù)是一個熔爐,分發(fā)著數(shù)據(jù)結(jié)構(gòu)以及類似Hadoop、NoSQL、Hive以及R這樣的工具。在這個技術(shù)含量非常高的環(huán)境中,數(shù)據(jù)科學(xué)家的工作就像是系統(tǒng)與那些來自不同領(lǐng)域?qū)<抑g的門衛(wèi)與調(diào)解人。
雖然有點(diǎn)難以概括,但基本上數(shù)據(jù)科學(xué)家發(fā)揮著三種作用:數(shù)據(jù)架構(gòu)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)分析。雖然這些職責(zé)很重要,但事實(shí)上不是每個公司都需要一個像Google或者Facebook有的那種高度專業(yè)的數(shù)據(jù)團(tuán)隊(duì)。關(guān)于創(chuàng)造符合目標(biāo)產(chǎn)品以及剔除技術(shù)復(fù)雜性的解決方案可以使大數(shù)據(jù)為商家所用。
隨便舉個例子,想想發(fā)生在世紀(jì)之交的網(wǎng)絡(luò)內(nèi)容管理革命吧。網(wǎng)站成了一時的時尚,但是各領(lǐng)域?qū)<覀儏s遭遇了源源不斷的麻煩,因此我們有了一個瓶頸。所有網(wǎng)站上新的內(nèi)容都需要IT編輯去編排內(nèi)容甚至硬編碼。那最后又是怎么解決的呢?我們把網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)中所需要的核心內(nèi)容概括并提取出來,然后把它們做成不懂技術(shù)的人也會用的模式。
讓我們以電子商務(wù)為背景,稍微深挖掘一下現(xiàn)今的數(shù)據(jù)科學(xué)家所扮演的角色吧。
用數(shù)據(jù)架構(gòu)降低復(fù)雜性
縮小范圍是降低復(fù)雜性的關(guān)鍵。幾乎所有的電子商務(wù)業(yè)務(wù)都對獲取用戶行為感興趣——預(yù)約、購買、線下交易以及社交數(shù)據(jù),幾乎以上每一項(xiàng)都有目錄及客戶檔案。
對這些基本功能限制范圍可以使我們創(chuàng)建標(biāo)準(zhǔn)數(shù)據(jù)錄入的模板,使得數(shù)據(jù)獲取及連通更為簡單。我們也需要找到打包不同數(shù)據(jù)結(jié)構(gòu)與工具(現(xiàn)今包括Hadoop、Hbase、Hive、Pig、Cassandra and Mahout)的有意義的方法。這些數(shù)據(jù)包必須要符合目標(biāo)要求,歸結(jié)起來就是80/20法則:80%的大數(shù)據(jù)使用方法(所有電商業(yè)務(wù)需要的全部),可以用20%的努力和技術(shù)實(shí)現(xiàn)。
在機(jī)器學(xué)習(xí)上我們當(dāng)然需要數(shù)據(jù)科學(xué)家,對嗎?好吧,如果你有非常個性化的需求的話,或許對吧。但大部分需要用到大數(shù)據(jù)的標(biāo)準(zhǔn)需求,比如推薦引擎及個性化系統(tǒng),都可以被提取出來。舉例來說,數(shù)據(jù)科學(xué)家工作的一大塊內(nèi)容是制作“特征”,這是在數(shù)據(jù)錄入里面使得機(jī)器學(xué)習(xí)更有效率的一種東西。我們想一下,所有的數(shù)據(jù)科學(xué)家都要把數(shù)據(jù)塞進(jìn)機(jī)器并啟動它們,那事實(shí)就是機(jī)器需要人們幫它們指出正確看待世界的方式。
然而,在每一個領(lǐng)域基礎(chǔ)上的特征創(chuàng)建都是可以被模板化的。例如每個商務(wù)網(wǎng)站都有購買流以及用戶分割這些概念。如果各領(lǐng)域?qū)<覀兛梢灾苯影阉麄冊诟髯灶I(lǐng)域的想法和理念直接編碼到系統(tǒng)里呢,是不是就可以避開作為中間人及翻譯的科學(xué)家們了呢?
借用數(shù)據(jù)分析工具
從數(shù)據(jù)中自動提取那些最有價值的信息從來都是不容易的。然而,有一些獲取特定領(lǐng)域觀點(diǎn)的辦法可以使商家們更像一個數(shù)據(jù)科學(xué)家去行動。這似乎是最容易解決的一個問題,因?yàn)槭忻嫔弦呀?jīng)有了各種領(lǐng)域的分析產(chǎn)品。
但這些產(chǎn)品目前對各領(lǐng)域?qū)<覀儊碚f還是限制太多門檻太高。絕對還需要一個更加友好的界面。我們也需要將機(jī)器如何通過分析結(jié)果學(xué)習(xí)放入考慮的范疇。這是非常關(guān)鍵的一個反饋系統(tǒng),商家們希望把修正放進(jìn)這個系統(tǒng)中。這也是另一個可能提供模板化界面的地方。
就像我們在內(nèi)容管理系統(tǒng)中學(xué)到的那樣,這些方法不能夠在任何時間解決任何問題。但將這些技術(shù)型解決方案運(yùn)用在一系列更廣泛的數(shù)據(jù)問題上將會減輕數(shù)據(jù)科學(xué)家們遭遇的瓶頸。當(dāng)各行業(yè)專家能直接用機(jī)器學(xué)習(xí)系統(tǒng)工作時,我們可能就進(jìn)入了一個能夠相互學(xué)習(xí)的嶄新的大數(shù)據(jù)時代?;蛟S到那時候大數(shù)據(jù)能解決的問題才會多于它所引起的問題。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03