
這兩年在大數(shù)據行業(yè)中的工作總結
今天呢,主要回顧這兩年來,在大數(shù)據行業(yè)公司從事大數(shù)據類的前端開發(fā)的工作。最近剛剛換了一份工作,把我的經驗稍作總結分享給大家,有什么建議大家在評論區(qū)踴躍。 謝謝。
今天的主題,主要是從大數(shù)據開發(fā)的角度,到大數(shù)據治理的必要性,再到圖形化建模的暢想,最后在數(shù)據質量的把關,然后到大數(shù)據可視化的應用,博主總結兩年的見聞,和我學習的成果,也不知理解有無偏差吧,希望大家能給出建議。
大數(shù)據開發(fā)
大數(shù)據開發(fā),有幾個階段:
1.數(shù)據采集【原始數(shù)據】
2.數(shù)據匯聚【經過清洗合并的可用數(shù)據】
3.數(shù)據轉換和映射【經過分類,提取的專項主題數(shù)據】
4.數(shù)據應用 【提供api 智能系統(tǒng) 應用系統(tǒng)等】
數(shù)據采集
數(shù)據采集有線上和線下兩種方式,線上一般通過爬蟲、通過抓取,或者通過已有應用系統(tǒng)的采集,在這個階段,我們可以做一個大數(shù)據采集平臺,依托自動爬蟲(使用python或者nodejs制作爬蟲軟件),ETL工具、或者自定義的抽取轉換引擎,從文件中、數(shù)據庫中、網頁中專項爬取數(shù)據,如果這一步通過自動化系統(tǒng)來做的話,可以很方便的管理所有的原始數(shù)據,并且從數(shù)據的開始對數(shù)據進行標簽采集,可以規(guī)范開發(fā)人員的工作。并且目標數(shù)據源可以更方便的管理。
數(shù)據采集的難點在于多數(shù)據源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統(tǒng)計文檔、甚至是doc文件。如何將他們規(guī)整的、有方案的整理進我們的大數(shù)據流程中也是必不可缺的一環(huán)。
數(shù)據匯聚
數(shù)據的匯聚是大數(shù)據流程最關鍵的一步,你可以在這里加上數(shù)據標準化,你也可以在這里做數(shù)據清洗,數(shù)據合并,還可以在這一步將數(shù)據存檔,將確認可用的數(shù)據經過可監(jiān)控的流程進行整理歸類,這里產出的所有數(shù)據就是整個公司的數(shù)據資產了,到了一定的量就是一筆固定資產。
數(shù)據匯聚的難點在于如何標準化數(shù)據,例如表名標準化,表的標簽分類,表的用途,數(shù)據的量,是否有數(shù)據增量?,數(shù)據是否可用? 需要在業(yè)務上下很大的功夫,必要時還要引入智能化處理,例如根據內容訓練結果自動打標簽,自動分配推薦表名、表字段名等。還有如何從原始數(shù)據中導入數(shù)據等。
數(shù)據轉換和映射
經過數(shù)據匯聚的數(shù)據資產如何提供給具體的使用方使用?在這一步,主要就是考慮數(shù)據如何應用,如何將兩個?三個?數(shù)據表轉換成一張能夠提供服務的數(shù)據。然后定期更新增量。
經過前面的那幾步,在這一步難點并不太多了,如何轉換數(shù)據與如何清洗數(shù)據、標準數(shù)據無二,將兩個字段的值轉換成一個字段,或者根據多個可用表統(tǒng)計出一張圖表數(shù)據等等。
數(shù)據應用
數(shù)據的應用方式很多,有對外的、有對內的,如果擁有了前期的大量數(shù)據資產,通過restful API提供給用戶?或者提供流式引擎 KAFKA 給應用消費? 或者直接組成專題數(shù)據,供自己的應用查詢?這里對數(shù)據資產的要求比較高,所以前期的工作做好了,這里的自由度很高。
總結:大數(shù)據開發(fā)的難點
大數(shù)據開發(fā)的難點主要是監(jiān)控,怎么樣規(guī)劃開發(fā)人員的工作?開發(fā)人員隨隨便便采集了一堆垃圾數(shù)據,并且直連數(shù)據庫。 短期來看,這些問題比較小,可以矯正。 但是在資產的量不斷增加的時候,這就是一顆定時炸彈,隨時會引爆,然后引發(fā)一系列對數(shù)據資產的影響,例如數(shù)據混亂帶來的就是數(shù)據資產的價值下降,客戶信任度變低。
如何監(jiān)控開發(fā)人員的開發(fā)流程?
答案只能是自動化平臺,只有自動化平臺能夠做到讓開發(fā)人員感到舒心的同時,接受新的事務,拋棄手動時代。
這就是前端開發(fā)工程師在大數(shù)據行業(yè)中所占有的優(yōu)勢點,如何制作交互良好的可視化操作界面?如何將現(xiàn)有的工作流程、工作需求變成一個個的可視化操作界面? 可不可以使用智能化取代一些無腦的操作?
從一定意義上來說,大數(shù)據開發(fā)中,我個人認為前端開發(fā)工程師占據著更重要的位置,僅次于大數(shù)據開發(fā)工程師。至于后臺開發(fā),系統(tǒng)開發(fā)是第三位的。好的交互至關重要,如何轉換數(shù)據,如何抽取數(shù)據,一定程度上,都是有先人踩過的坑,例如kettle,再例如kafka,pipeline ,解決方案眾多。關鍵是如何交互? 怎么樣變現(xiàn)為可視化界面? 這是一個重要的課題。
現(xiàn)有的各位朋友的側重點不同,認為前端的角色都是可有可無,我覺得是錯誤的,后臺的確很重要,但是后臺的解決方案多。 前端實際的地位更重要,但是基本無開源的解決方案,如果不夠重視前端開發(fā), 面臨的問題就是交互很爛,界面爛,體驗差,導致開發(fā)人員的排斥,而可視化這塊的知識點眾多,對開發(fā)人員的素質要求更高。
大數(shù)據治理應該貫穿整個大數(shù)據開發(fā)流程,它有扮演著重要的角色,淺略的介紹幾點:
全平臺監(jiān)控
從數(shù)據血緣說起,數(shù)據血緣應該是大數(shù)據治理的入口,通過一張表,能夠清晰看見它的來龍去脈,字段的拆分,清洗過程,表的流轉,數(shù)據的量的變化,都應該從數(shù)據血緣出發(fā),我個人認為,大數(shù)據治理整個的目標就是這個數(shù)據血緣,從數(shù)據血緣能夠有監(jiān)控全局的能力。
數(shù)據血緣是依托于大數(shù)據開發(fā)過程的,它包圍著整個大數(shù)據開發(fā)過程,每一步開發(fā)的歷史,數(shù)據導入的歷史,都應該有相應的記錄,數(shù)據血緣在數(shù)據資產有一定規(guī)模時,基本必不可少。
數(shù)據開發(fā)中,每一個模型(表)創(chuàng)建的結束,都應該有一個數(shù)據質量審查的過程,在體系大的環(huán)境中,還應該在關鍵步驟添加審批,例如在數(shù)據轉換和映射這一步,涉及到客戶的數(shù)據提供,應該建立一個完善的數(shù)據質量審查制度,幫助企業(yè)第一時間發(fā)現(xiàn)數(shù)據存在的問題,在數(shù)據發(fā)生問題時也能第一時間看到問題的所在,并從根源解決問題,而不是盲目的通過連接數(shù)據庫一遍一遍的查詢sql。
全平臺監(jiān)控
監(jiān)控呢,其實包含了很多的點,例如應用監(jiān)控,數(shù)據監(jiān)控,預警系統(tǒng),工單系統(tǒng)等,對我們接管的每個數(shù)據源、數(shù)據表都需要做到實時監(jiān)控,一旦發(fā)生殆機,或者發(fā)生停電,能夠第一時間電話或者短信通知到具體負責人,這里可以借鑒一些自動化運維平臺的經驗的,監(jiān)控約等于運維,好的監(jiān)控提供的數(shù)據資產的保護也是很重要的。
大數(shù)據可視化不僅僅是圖表的展現(xiàn),大數(shù)據可視化不僅僅是圖表的展現(xiàn),大數(shù)據可視化不僅僅是圖表的展現(xiàn),重要的事說三遍,大數(shù)據可視化歸類的數(shù)據開發(fā)中,有一部分屬于應用類,有一部分屬于開發(fā)類。
在開發(fā)中,大數(shù)據可視化扮演的是可視化操作的角色, 如何通過可視化的模式建立模型? 如何通過拖拉拽,或者立體操作來實現(xiàn)數(shù)據質量的可操作性? 畫兩個表格加幾個按鈕實現(xiàn)復雜的操作流程是不現(xiàn)實的。
在可視化應用中,更多的也有如何轉換數(shù)據,如何展示數(shù)據,圖表是其中的一部分,平時更多的工作還是對數(shù)據的分析,怎么樣更直觀的表達數(shù)據?這需要對數(shù)據有深刻的理解,對業(yè)務有深刻的理解,才能做出合適的可視化應用。
智能的可視化平臺
可視化是可以被再可視化的,例如superset,通過操作sql實現(xiàn)圖表,有一些產品甚至能做到根據數(shù)據的內容智能分類,推薦圖表類型,實時的進行可視化開發(fā),這樣的功能才是可視化現(xiàn)有的發(fā)展方向,我們需要大量的可視化內容來對公司發(fā)生產出,例如服裝行業(yè),銷售部門:進貨出貨,顏色搭配對用戶的影響,季節(jié)對選擇的影響 生產部門:布料價格走勢? 產能和效率的數(shù)據統(tǒng)計? 等等,每一個部門都可以有一個數(shù)據大屏,可以通過平臺任意規(guī)劃自己的大屏,所有人每天能夠關注到自己的領域動向,這才是大數(shù)據可視化應用的具體意義。
寫在最后
洋洋灑灑寫了很多,對我近兩年的所見所聞所學所想進行了一些總結,有些童鞋會問,不是技術么?為什么沒有代碼? 博主要說,代碼博主要學的,要寫的,但是與工作無關,代碼是我個人的技能,個人傍身,實現(xiàn)個人想法的重要技能。 但是,代碼與業(yè)務的關系不大,在工作中,懂業(yè)務的人代碼寫的更好,因為他知道公司想要什么。 如果你業(yè)務很差,那也沒關系,你代碼好就行了呀,根據別人的交代干活,也是很不錯的。技術和業(yè)務是相輔相成的,稍后博主總結代碼的精進。
寫完了,焦慮一絲未少,我的代碼規(guī)范性不夠,目前技術棧js、java、nodejs、python 。
主業(yè)js熟練度80%吧,正在研究阮一峰的es6(看的差不多)和vuejs的源碼(有點擱淺),vuejs算是中等,css和布局方面可以說還可以,另外d3.js,go.js都是處于會用,能干活。 nodejs呢,express和koa無問題,看過一些express的源代碼,還寫過兩個中間件。
java、python都處于能做項目的程度,目前也不想抽很多精力去深入它們,就想要保持在想用能用的地步吧。
未來的幾年,努力工作,多學學人工智能、大數(shù)據開發(fā)的知識,未來這塊應該還有一些熱度的吧。
最后,和大家共勉,更希望大家能給一些規(guī)劃建議,三人行,必有我?guī)熝伞?
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據分析師報考條件詳解與準備指南? ? 在數(shù)據驅動決策的時代浪潮下,CDA 數(shù)據分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據透視表中兩列相乘合計的實用指南? 在數(shù)據分析的日常工作中,數(shù)據透視表憑借其強大的數(shù)據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據分析師:連接數(shù)據與業(yè)務的價值轉化者? ? 在大數(shù)據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據查詢到趨勢預判? ? 在數(shù)據驅動決策的時代,預測分析作為挖掘數(shù)據潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據背后的時間軌跡? 在數(shù)據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據類型:時間維度的精準切片? ? 在數(shù)據的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據分析師認證考試中,Python 作為數(shù)據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據趨勢與突變分析的有力工具? ? ? 在數(shù)據分析的廣袤領域中,準確捕捉數(shù)據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據分析師認證作為國內權威的數(shù)據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據分析師考試作為衡量數(shù)據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據處理的關鍵技能? 在數(shù)據處理與分析工作中,數(shù)據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據分析師視角:從數(shù)據迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據分析師:開啟數(shù)據職業(yè)發(fā)展新征程? ? 在數(shù)據成為核心生產要素的今天,數(shù)據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03