
資深大數(shù)據(jù)專家???
最近朋友圈里許多的人在為公司招"資深大數(shù)據(jù)"的人才,不禁思考,什么樣的人才是資深的大數(shù)據(jù)專家?也許這個(gè)題目有點(diǎn)大,那就再落地一點(diǎn),什么樣的人才能幫我的公司帶入到大數(shù)據(jù)的領(lǐng)域,并為我的公司盈利?
技術(shù)角度
先從技術(shù)角度來說,資深大數(shù)據(jù)專家首先要有相關(guān)的代碼能力,要能夠搭建Hadoop,Spark,Yarn這樣的架構(gòu),要知道在這樣的架構(gòu)里要用什么語言來滿足自己的業(yè)務(wù)發(fā)展。
然后又要懂得數(shù)據(jù)挖掘及數(shù)據(jù)可視化,同時(shí),也要掌握前端的所有技術(shù)(LVS,CDN,負(fù)載均衡....)及相應(yīng)的語言選擇,有人說,大數(shù)據(jù)時(shí)代,要對(duì)R,Python,Scala都可以知道并明白它們的常用函數(shù)及相關(guān)的語法格式。
同時(shí),你也要對(duì)相關(guān)的算法有一定的了解,經(jīng)常用到的有決策樹,Apriori,K-NN,K-MEAN等等的算法,當(dāng)你開始使用這些算法的時(shí)候,一定要了解它的原理。這樣,至少在你后期的算法優(yōu)化的過程幫助你提高你的效能。
好了,從上面的三個(gè)角度來說。看一看我們身邊是否有這樣的人。答案顯而易見,沒有!又或者有,都是在BAT這樣的大公司,一個(gè)新興的小公司如何去招到這樣資深的大數(shù)據(jù)人才,很難!因?yàn)?,在你懂?a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop之后,業(yè)務(wù)要有較快的反應(yīng),此時(shí)你又要考慮Spark,隨著實(shí)時(shí)性的發(fā)展,你勢必又要學(xué)習(xí)Storm.這一方面的人才不可能技術(shù)非常專一,相反,他的技術(shù)感知,或者說相應(yīng)的學(xué)習(xí)能力才更為重要!
所以,從技術(shù)角度來說,資深大數(shù)據(jù)人才,不僅僅是一項(xiàng)技術(shù)很好,而是一個(gè)技術(shù)綜合能力及學(xué)習(xí)能力很強(qiáng)的人。
業(yè)務(wù)角度
最近聽了兩個(gè)論壇,一個(gè)是IBM的,一個(gè)是R語言大會(huì)。感觸非常深,IBM在大數(shù)據(jù)領(lǐng)域可謂是引領(lǐng)了概念與潮流。上來他的本專業(yè)博士就說到,現(xiàn)在國內(nèi)的大數(shù)據(jù)公司70%以上都跟大數(shù)據(jù)沒什么關(guān)系!這是現(xiàn)實(shí),我自己所從事的行來所從事的數(shù)據(jù)分析也僅限于TXT,EXCEL這類的原文本分析,非結(jié)構(gòu)化的數(shù)據(jù)在傳統(tǒng)行業(yè)很少。
大數(shù)據(jù)做的最好的行業(yè)可能就是廣告行業(yè),打開手機(jī),你的朋友圈,PC,PAD。至少廣告是會(huì)隨著你的平臺(tái)而至死追隨你的。而廣告,金融,醫(yī)療這三個(gè)行業(yè),為什么大數(shù)據(jù)會(huì)最先落地,不是因?yàn)樗麄冞@個(gè)行業(yè)技術(shù)成熟度高或是什么,更為重要的可能就是這三個(gè)行業(yè)比較有錢吧!這是在R語言大會(huì)上李艦(至于說他是誰,相信用R做過文本分析的人可能知道,是寫RWordseg包的那位)說的。
如何去理解你的業(yè)務(wù),這一點(diǎn)可能是擺在大數(shù)據(jù)人才面前最為重要的問題。你的技術(shù)再強(qiáng),算法再精確,沒有對(duì)業(yè)務(wù)的詳細(xì)了解是不可能做出很有成效的結(jié)果。有人又說到,大數(shù)據(jù)是互聯(lián)網(wǎng)行業(yè),我們對(duì)傳統(tǒng)行業(yè)又不了解,而且也沒有積累,如何能夠快速掌握了解一個(gè)行業(yè),進(jìn)而對(duì)相關(guān)的數(shù)據(jù)有一個(gè)更深入的了解。
在這里,我個(gè)人比較欣賞獵頭的做法,當(dāng)你想了解一個(gè)行業(yè)的時(shí)候,你不是去看書,而是去招人!我相信,在與人溝通的過程中,你會(huì)了解到更多的信息?;煺搲彩且粋€(gè)比較好的選擇,因?yàn)樵谡搲?,你能夠看到這個(gè)行業(yè)的方方面面。對(duì)你了解業(yè)務(wù)尤其重要。
培訓(xùn)業(yè)務(wù)思維,還有一個(gè)最簡單的辦法就是多和你們公司的銷售聊聊!
綜上所述,我所理解的資深大數(shù)據(jù)人才,重點(diǎn)還是在于對(duì)業(yè)務(wù)的理解,說的落地一點(diǎn)就是對(duì)你所采集下來的TXT,EXCEL數(shù)據(jù)里關(guān)鍵的幾個(gè)指標(biāo)的把控。你要知道某一個(gè)指標(biāo)數(shù)過大或過小意味著什么?如何讓這些指標(biāo)為你產(chǎn)生價(jià)值跟利益!然后才是相關(guān)技術(shù)的學(xué)習(xí),技術(shù)這一塊,個(gè)人建議多懂一些,當(dāng)要用時(shí),再深化細(xì)節(jié)里邊的內(nèi)容。
舉一個(gè)例子,為什么在人才市場里,算法工程師要比代碼工程師價(jià)格高,因?yàn)楦闼惴ǖ娜吮仨氁獣?huì)代碼,同時(shí)要能明白算法的內(nèi)在邏輯。這一點(diǎn)是在自己學(xué)習(xí)過程中才體會(huì)到的,當(dāng)你邏輯清楚之會(huì)的代碼實(shí)現(xiàn)就相對(duì)簡單一些了。
架構(gòu),這一點(diǎn)對(duì)資深大數(shù)據(jù)工程師來說,是必須要有的能力。要能夠?qū)鹘y(tǒng)行業(yè)搭建起最好的架構(gòu)并能夠運(yùn)行,同時(shí)也要兼顧到后期的可擴(kuò)展。還有一點(diǎn),就是你要跟你的領(lǐng)導(dǎo)講明白。
業(yè)務(wù)能力,落地一點(diǎn)就是能夠什么時(shí)侯收回成本并實(shí)現(xiàn)盈利!記得我的數(shù)據(jù)挖掘老師說過,對(duì)于傳統(tǒng)行業(yè)做數(shù)據(jù)分析與挖掘,你要能夠在3-6的時(shí)間里讓客戶見到效益。否則你的數(shù)據(jù)挖掘就沒有意義!
好了,以上就是我所理解的資深大數(shù)據(jù)的概念。希望在大數(shù)據(jù)這個(gè)風(fēng)口,自己能夠少點(diǎn)浮躁,多點(diǎn)踏實(shí),把技術(shù)學(xué)好,把業(yè)務(wù)理解透徹。謙卑著努力,加油!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10