
大數(shù)據職位所需的數(shù)據場技能
除了報表統(tǒng)計外,還需要對數(shù)據的有很強的解讀能力。電商中的個性推薦技術,商業(yè)與銀行中的欺騙檢測,智能手機中語音識別等等技術,讓我們渾身便散發(fā)出大數(shù)據與機器學習的各種場信息,給人以滿滿的正能量。
01 數(shù)據場
學過物理的小伙伴,都知道世界充滿了電場和磁場。了解過佛學的人,都知道世界充滿了念力場與信息場,通過信息場,可以與更高一級的文明進行溝通。
有的人一出現(xiàn),渾身便會散發(fā)出強大的氣場?,F(xiàn)在是數(shù)據時代,整天和數(shù)據打交道,要培養(yǎng)自己的數(shù)據場。開句玩笑的話,以后往人群中一站,還未開口,渾身便散發(fā)出大數(shù)據與機器學習的各種場信息,給人以滿滿的正能量。
說起“大數(shù)據”一詞,也是真正被吵夠了。連做個簡單的統(tǒng)計也叫大數(shù)據,做個表格、畫個圖形出來,就叫大數(shù)據了。凡是不和“大數(shù)據”沾邊,就感覺已經落伍了。其實,很多人除了知道簡單的統(tǒng)計外,根本不了解大數(shù)據是什么。甚至連Hadoop都不知為何物,更別談機器學習了。
大數(shù)據是一個概念也是一門技術,是在以Hadoop為代表的大數(shù)據平臺框架上進行的各種數(shù)據分析技術。包括了實時數(shù)據處理、離線數(shù)據處理;還包括了數(shù)據分析,數(shù)據挖掘,和用機器學習算法進行預測分析。
概念吵著吵著就變味了。用“大數(shù)據”來代表一切,有些不太合理。目前比較合適的一個詞是數(shù)據科學(Data Science),做數(shù)據科學的可以叫數(shù)據科學家。當然真正到科學家這個級別,要求是非常高的,需要有完整的數(shù)據知識體系。
也許小時候的夢想就是當科學家,現(xiàn)在終于不用上博士就可以實現(xiàn)了。雖然很多都只是自己團隊或者公司封的職位。接下來,可以看看,在數(shù)據方面上,大概有哪些職位。
02 數(shù)據職位
限于個人的閱歷與認識,在此只是列舉其中一部分出來。
2.1 開發(fā)相關
主要有數(shù)據抓取,也即通常說的網絡爬蟲。需要考慮數(shù)據抓取的實時性與完整性,還有數(shù)據及時更新,數(shù)據去重等等。嚴格來說,和通常意義上的大數(shù)據相關性不大,主要是后端開發(fā)的一系列技術,其中也會涉及分布式的一些技術。
ETL開發(fā),ETL為Extract、Transform和Load的縮寫,即數(shù)據抽取,轉換與裝載。將各種來源的數(shù)據進行收集、規(guī)范和存儲起來??梢允请x線的方式,存儲在以Hadoop為代表的大數(shù)據集群中。也可以是實時的展現(xiàn)在報表系統(tǒng)中。如果是實時的,也叫實時數(shù)據流開發(fā),通常和Storm框架或者Spark Streaming技術相關。
Hadoop平臺開發(fā),專指以大數(shù)據框架為基礎,并在此基礎上進行二次開發(fā)或者數(shù)據流開發(fā)。對數(shù)據平臺做開發(fā)與改進,只能是程序員的工作了,根據業(yè)務需求,對現(xiàn)有的平臺進行改進與優(yōu)化。因為是平臺相關的,通常需要Java與Scala的專業(yè)程序員,這塊和數(shù)據分析基本沒有太大關系。
另外還有純前端的數(shù)據可視化技術開發(fā),或者純運維的大數(shù)據集群管理等等。
2.2 報表分析
商業(yè)智能分析,包括報表分析,運營或者銷售分析,這一塊以Excell、SPSS和R為代表。主要是指對針對具體業(yè)務,對現(xiàn)有的數(shù)據進行統(tǒng)計分析,期待從中發(fā)現(xiàn)一些規(guī)律與趨勢。
數(shù)據分析報表,也是最常用的數(shù)據分析師職位的一些工作,通常產出以報表為主。這塊很多時候會與運營部門的需求相關,技術上主要以成熟的工具為主。
當數(shù)據量一大,就會涉及在集群環(huán)境下的分析,分析師通常很熟悉SQL,這也是構建于Hadoop之上的Hive能被大眾熟悉的原因。
除了報表統(tǒng)計外,還需要對數(shù)據的有很強的解讀能力,能分析和解讀出一些現(xiàn)象產生的原因,同時需要針對這些問題,提出一些可能的應對方案,以便對業(yè)務策略或者商業(yè)方向上有更多的指導。
一些專業(yè)領域分析,如網絡安全分析,金融領域分析。這些領域的分析,通常需要用領域知識,深入現(xiàn)象背后去挖掘出產生的原因,不僅要具有很強的分析能力,也需要很強的領域知識。
2.3 算法挖掘
做為數(shù)據科學中的重頭戲,便是數(shù)據挖掘和機器學習了。在線電商中的個性推薦技術,商業(yè)與銀行中的欺騙檢測,智能手機中語音識別(Siri),機器翻譯,圖像識別等等。
涉及大量機器學習算法,包括分類、聚類和個性推薦等常用數(shù)據挖掘技術。也包括數(shù)據分析的很多基礎,和數(shù)據分析偏重的報表產出并不同,并不強調產出大量的報表,通常是在現(xiàn)有數(shù)據基礎上的產出新數(shù)據,用于服務業(yè)務系統(tǒng)。
還可以推廣到人工智能,其中涉及大量的數(shù)據處理與挖掘技術。比如機器人,無人駕駛,總之是盡量的在某些領域達到或者超過人類。人類能處理如下內容:
Number: 數(shù)據(數(shù))
NLP: 自然語言處理(文字)
Pic: 圖像處理(圖片)
Voice: 語音識別(語音)
Video: 視頻處理(視頻)
個性推薦: (集體智慧與社交化)
其中會用到大量的機器學習算法,包括深度學習,從而達到服務人類的目的。
03 生態(tài)與周邊
關于數(shù)據的統(tǒng)計、分析與挖掘,這些概念的側重點不一樣。數(shù)據統(tǒng)計,利用統(tǒng)計學的知識,產出數(shù)據和報表;數(shù)據分析,除了產出數(shù)據和報表外,還需要分析其中原因,最好能找出對應的策略;數(shù)據挖掘,需要在數(shù)據分析的基礎上,發(fā)現(xiàn)新的,有價值的知識及潛在的規(guī)律。如果只是對原有的數(shù)據進行統(tǒng)計分析,而沒有對未知的事物進行預測,是不算數(shù)據挖掘。
數(shù)據相關的職位各種各樣,我們要構建數(shù)據場時,抽取其中的各種技能出來,組成自己的技能表。最近讀到一篇文章:《機器學習職位需要的七個關鍵技能》
文章描述了機器學習需要的七個技能,以及需要這些技能的原因,主要技能如下:
編程語言(Python/C++/R/Java);
概率與統(tǒng)計;
應用數(shù)學與算法;
Unix/Linux工具集;
高級信號處理技術(特征提取);
大量閱讀,適應快速變化,更新自己;
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據分析師:表結構數(shù)據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(如數(shù)據庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據分析師:解鎖表結構數(shù)據特征價值的專業(yè)核心 表結構數(shù)據(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據,如數(shù)據庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據差異是否 “ ...
2025-09-16CDA 數(shù)據分析師:掌控表格結構數(shù)據全功能周期的專業(yè)操盤手 表格結構數(shù)據(以 “行 - 列” 存儲的結構化數(shù)據,如 Excel 表、數(shù)據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據分析師:激活表格結構數(shù)據價值的核心操盤手 表格結構數(shù)據(如 Excel 表格、數(shù)據庫表)是企業(yè)最基礎、最核心的數(shù)據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據的科學計數(shù)法問題 為幫助 Python 數(shù)據從業(yè)者解決pd.read_csv讀取長浮點數(shù)據時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據分析師:業(yè)務數(shù)據分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據分析師與戰(zhàn)略 / 業(yè)務數(shù)據分析:概念辨析與協(xié)同價值 在數(shù)據驅動決策的體系中,“戰(zhàn)略數(shù)據分析”“業(yè)務數(shù)據分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10