
CDA數(shù)據(jù)分析師 出品
作者:劉宇翔
編輯:Mika
大家好,我是來自永洪科技的數(shù)據(jù)分析師劉宇翔。我今天分享的主題是,釋放數(shù)據(jù)價值,人人都是數(shù)據(jù)分析師。
首先看一下今天的交流內(nèi)容,共分成4個部分。
第一部分是關(guān)于數(shù)據(jù)分析項目的基礎(chǔ)架構(gòu)。本身我也是接觸商業(yè)智能BI比較多的,有比較多的項目經(jīng)驗(yàn)。這里為大家講一下,在商業(yè)化的數(shù)據(jù)分析和商業(yè)智能項目里,像BI的應(yīng)用、AI人工智能的應(yīng)用,這樣的數(shù)據(jù)分析需求在不斷涌現(xiàn)。
第二部分是數(shù)據(jù)分析常用工具的介紹,關(guān)于比較了解的幾個主要的大類。重點(diǎn)會去介紹商業(yè)智能BI這一部分。
第三部分是關(guān)于BI可視化分析能力。
第四部分是制造業(yè)的場景分析。制造業(yè)的話也是有比較多的主題,包括生產(chǎn)制造、流程、庫存、采購、財務(wù)營銷等等,今天主要介紹采購的分析。
隨著在信息化、數(shù)字化浪潮轉(zhuǎn)型的過程中,不管是企業(yè)、政府、個人用戶等,都會有比較多的數(shù)據(jù)分析需求。無論是B端還是C端,這些需求也是有共性的。
首先,有數(shù)據(jù)平臺化的需求。不管是制造類型、能源、交通行業(yè)的數(shù)據(jù),都可以分為內(nèi)部和外部兩種數(shù)據(jù)。對于企業(yè)內(nèi)部的IT部門或者業(yè)務(wù)部門,他們之間的需求和分工發(fā)生了很大的變化。
IT部門逐漸從需求的響應(yīng)方變成了平臺化的部門。業(yè)務(wù)部門從簡單的提出需求,到獲得報告或可視化報表,逐漸轉(zhuǎn)向?yàn)橛凶灾鞯姆治瞿芰?。從而逐步推動在企業(yè)或用戶內(nèi)部搭建統(tǒng)一的數(shù)字化平臺,然后為整體的這些同事提供統(tǒng)一服務(wù)。
另外在業(yè)數(shù)一體化方面,通過目前比較先進(jìn)的、比較敏捷的可視化技術(shù),比如大屏、分析,以及人工智能這樣的能力,把數(shù)據(jù)融到的日常業(yè)務(wù)當(dāng)中。
接下來是分析全民化。目前在國內(nèi),每年數(shù)據(jù)分析師的數(shù)量增長比較迅速,而且現(xiàn)在隨著商業(yè)智能的普及,包括像R語言、 Python等分析工具的普及,普通的用戶在做業(yè)務(wù)的時,大家都可以去學(xué)習(xí),去掌握這樣的技能。
通過數(shù)據(jù)分析技能,除了日常看報告、看數(shù)據(jù)之外,對于自己的工作指導(dǎo)也有比較重要的數(shù)據(jù)意義。另外分析能力,在職場上也能夠幫助大家升職加薪,或者提供更多的職業(yè)選擇。
最后一點(diǎn), AI的平民化。其實(shí) BI和AI關(guān)聯(lián)性還是比較強(qiáng)的,像BI的商業(yè)智能,或其他的分析領(lǐng)域可能比較偏向于統(tǒng)計分析、數(shù)理分析或者監(jiān)控分析。
如果在統(tǒng)計分析已經(jīng)做得比較好,對于業(yè)務(wù)的驅(qū)動都做得比較好的前提下,用戶更進(jìn)一步的都希望做AI應(yīng)用。目前眾多商業(yè)智能的廠商都具有深度分析的模塊和能力,他們能夠幫助用戶在 BI的基礎(chǔ)上做更深層次的數(shù)據(jù)應(yīng)用。
近年來大環(huán)境有些變化,像地產(chǎn)、教育、疫情影響下的旅游、交通等行業(yè)都受到了一些影響。實(shí)際上不管是傳統(tǒng)行業(yè),還是一部分新興行業(yè),許多行業(yè)的業(yè)務(wù)運(yùn)營都面臨著比較大的壓力和挑戰(zhàn)。在這種情況下,提高數(shù)據(jù)化運(yùn)營的程度,深挖內(nèi)功也是企業(yè)和用戶比較強(qiáng)烈的訴求。
在這樣的基礎(chǔ)上,整個數(shù)據(jù)分析的思路可以這樣梳理。從問題出發(fā),然后數(shù)據(jù)沉淀,最后是以結(jié)果為導(dǎo)向,共分為5個步驟。
首先對于分析來講,第一步是要分明確分析的問題,需要去界定要分析什么內(nèi)容,什么指標(biāo)或者什么維度。然后再將這些分析的內(nèi)容做拆解,把大的問題拆分成小的問題,接著建立維度指標(biāo)以及數(shù)據(jù)的指標(biāo)體系。
第二步,是去完成數(shù)據(jù)獲取。數(shù)據(jù)獲取有比較多的來源,像企業(yè)內(nèi)部、用戶內(nèi)部有自己的數(shù)據(jù)源以及業(yè)務(wù)系統(tǒng),比如ERP、 CM系統(tǒng)、 OA系統(tǒng)等等都可以提供數(shù)據(jù)庫或數(shù)據(jù)源。
另外其他系統(tǒng)也有數(shù)據(jù)采集的能力,通過爬蟲、Python獲取外部數(shù)據(jù)的應(yīng)用,還有線下的Excel表格統(tǒng)計數(shù)據(jù),或者手工填報錄入到業(yè)務(wù)系統(tǒng)或商業(yè)智能當(dāng)中的數(shù)據(jù)源類型。通過構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)湖等方式獲取數(shù)據(jù)。
第三步,數(shù)據(jù)的探索和處理。這里是數(shù)據(jù)治理、數(shù)據(jù)清洗的內(nèi)容,獲取的數(shù)據(jù)如果有些問題的話,需要對它進(jìn)行定義,對邏輯腳本等進(jìn)行處理。
第四步,關(guān)于模型的搭建。從整個的分析邏輯,選擇不同的模型,根據(jù)分析需求,選擇對應(yīng)的模型搭建完成。之后可視化的展示,這一部分可以依賴于不同的工具。
整個分析流程下來,我們希望創(chuàng)造一些價值,達(dá)成相應(yīng)的收益。分成以下數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的4種價值實(shí)現(xiàn)形式,包括像業(yè)務(wù)監(jiān)控、問題診斷、智能預(yù)測和決策。
數(shù)據(jù)的應(yīng)用分析以及數(shù)據(jù)挖掘,它都是為人的決策提供支持。像很多企業(yè)的基層、中層以及管理層,以往決策更依賴于經(jīng)驗(yàn)決策、其他判斷,或簡單的數(shù)據(jù)決策邏輯。
但隨著信息化或者數(shù)字化,包括BI的應(yīng)用能夠幫助他們建立科學(xué)決策,以及數(shù)據(jù)決策這樣的分析思路。
從淺到深的話,首先是對于業(yè)務(wù)的核心指標(biāo)監(jiān)控。然后對于這些數(shù)據(jù)要全局打通,不管是生產(chǎn)類的,還是營銷類、財務(wù)類的,把數(shù)據(jù)做匯總和整合,從而能夠看到公司全域的數(shù)據(jù)。
基于該基礎(chǔ)之上,可以去做問題診斷。比如說看異常數(shù)據(jù),然后看當(dāng)中的原因、明細(xì)、數(shù)據(jù)總體趨勢、關(guān)聯(lián)關(guān)系,或者運(yùn)用更深層次的算法,聚類、回歸等能力去做數(shù)據(jù)的挖掘和應(yīng)用。
智能預(yù)測的話,可以結(jié)合AI算法,定制模型來為未來的數(shù)據(jù)做預(yù)測。這個準(zhǔn)確率也是會依賴算法的訓(xùn)練,包括歷史數(shù)據(jù)等比較多的因素。最終要達(dá)到,為多個層次提升決策的效率和準(zhǔn)確度。另外還有簡化整個決策和思考的過程,從憑經(jīng)驗(yàn)、憑感覺轉(zhuǎn)變成為看到數(shù)據(jù),就可以看到數(shù)據(jù)所背后所代表的價值和信息。
下面是比較通用的,在數(shù)據(jù)分析以及BI商業(yè)智能項目上所搭建的項目架構(gòu)。
架構(gòu)的話是有三個層次,底層的處理層,也就是業(yè)務(wù)處理層或數(shù)據(jù)源層;中間的數(shù)據(jù)中樞層,也叫數(shù)據(jù)平臺、數(shù)據(jù)匯總層。頂層是數(shù)據(jù)應(yīng)用層,也是分析展示的層次。
底層的話,架構(gòu)是比較清晰的??梢詮亩喾N數(shù)據(jù)源或者多個維度拿到數(shù)據(jù),大量數(shù)據(jù)不管是通過SQL查詢還是其他導(dǎo)入的形式,中間入到數(shù)據(jù)倉庫當(dāng)中進(jìn)行數(shù)據(jù)匯總。匯總方面,對于做采集和存儲之外,還需要做清理整合。針對不同的分析主題,分成了不同的主題域。在治理層面的話,對數(shù)據(jù)的原數(shù)據(jù),包括質(zhì)量、主數(shù)據(jù)、安全,還有數(shù)據(jù)資產(chǎn)類的具有管理能力。
把這個數(shù)據(jù)做了打通,匯總和清理之后的話,頂層是可以介入分析的工具或者可視化的平臺,然后來做展示。最終輸出的結(jié)果也是大家比較常見的,有報表類的,也有可視化報告類的,還有動態(tài)的、炫酷的大屏類的,這些都是最終的項目成果。其實(shí)在底下是有大量的數(shù)據(jù)工作的。另外像很多項目里,數(shù)據(jù)底層的處理和清洗匯總會占到更多的時間,去做最終展示的結(jié)果、可視化的界面或圖形時,反而占的時間會相對少。
這里列舉了大家常用的工具。
Excel是大家比較熟悉的入門級工具。
目前國內(nèi)的很多分析場景中,Excel占據(jù)了比較高的比例。因?yàn)樗唵我子?,還免費(fèi),而且功能強(qiáng)大,操作便捷靈活。已經(jīng)能夠幫助滿足基礎(chǔ)的分析統(tǒng)計,包括數(shù)據(jù)的簡單計算,像函數(shù)、可視化的能力等。
SPSS等分析軟件,能夠通過圖形菜單驅(qū)動,并且能夠去完成比較豐富的數(shù)據(jù)處理和分析。前些年,SPSS都用得比較多,最近隨著報表工具,日報的工具,還有商業(yè)智能BI的興起,目前它使用的場景會更少。
R語言。R和Python兩個像兄弟一樣是不分家的,這兩種語言針對的都是不同的領(lǐng)域。R擅長于計算和作圖,Python擅長可視化,包括像人工智能方面。這些都是開源免費(fèi)的。
R作為編程語言,它的靈活度和能力豐富度是比較高的。不會受制于功能或需求的框架,只要我們有相應(yīng)的開發(fā)能力和語言編程能力,R就能幫助我們完成比較靈活的分析和展示。
Python現(xiàn)在比較火。對于數(shù)據(jù)分析師來說的話,這幾種工具當(dāng)中 Python可以說是重要性比較靠前的,也是現(xiàn)在比較流行的編程語言和能力。
接著是SQL。SQL和BI是不分家的,關(guān)系比較強(qiáng)的?;旧?a href='/map/shangyezhineng/' style='color:#000;font-size:inherit;'>商業(yè)智能BI都需要通過SQL的形式去做數(shù)據(jù)的查詢,不管是簡單的select,或者 group by等數(shù)據(jù)增刪改查等應(yīng)用,都需要去掌握SQL的能力。
最后還有商業(yè)智能BI。隨著近些年的分析需求越發(fā)復(fù)雜和靈活,而且目前低代碼的趨勢也是決定了 BI的發(fā)展能力。
首先,BI和不同的業(yè)務(wù)系統(tǒng)里自帶的分析模塊比起來,它的區(qū)別在于:一般商業(yè)智能是會做跨平臺的統(tǒng)一分析平臺,比如說 ERP以及一些財務(wù)系統(tǒng)里,也有分析報表和可視化模塊,但在多個系統(tǒng)之間的打通比較弱,可能形成數(shù)據(jù)孤島或數(shù)據(jù)煙囪的情況。
像BI的話,是可以去通過數(shù)據(jù)匯總這樣的計算,來拿到全域的數(shù)據(jù)和信息內(nèi)容,從而做全局分析,包括像關(guān)聯(lián)分析、聯(lián)動分析。最后通過低代碼拖拉拽的形式,去做可視化圖表的開發(fā)和制作,這是比較敏捷和快速的。
關(guān)于可視化分析的能力,首先要看分析場景。如果是在會議或匯報上,想做可視化的效果去了解的業(yè)務(wù),或在其他場景下去分析問題,這里就需要這樣的工具進(jìn)行分析。
總的來講BI可以通過報表、圖表、儀表盤,然后結(jié)合查詢分析的能力,提供數(shù)據(jù)的預(yù)警和挖掘。
對于分析工具來講的話,像永洪desktop這樣的產(chǎn)品,可以連接比較豐富類型的主流的數(shù)據(jù)庫。
另外數(shù)據(jù)拿到 BI分析工具當(dāng)中后,可以對它做輕量級的數(shù)據(jù)處理,包括像SQL的查詢、關(guān)聯(lián)、去重轉(zhuǎn)換、抽樣排序等,這樣的數(shù)據(jù)處理都可以在前端通過可視化的界面和能力去實(shí)現(xiàn)。
總的來講敏捷BI的核心特色還是說在低代碼開發(fā)和敏捷自主分析上。不管是說R和Python來講,用戶有一定學(xué)習(xí)門檻,學(xué)語言、邏輯,還有實(shí)現(xiàn)形式。對于 BI工具來說,分析過程都是拖拽的過程,可以去選 BI工具里邊自帶的組件。當(dāng)中的組件圖表都是比較豐富的。數(shù)據(jù)入到BI當(dāng)中,可以用常用的分析方法。比如線圖、面積圖、餅圖、點(diǎn)圖以及,熱力圖、漏斗圖等。
關(guān)注“CDA數(shù)據(jù)分析師服務(wù)號”
回復(fù)“數(shù)據(jù)價值”
獲取pdf版視頻內(nèi)容
關(guān)于制造業(yè)場景分析應(yīng)用,這部分主要介紹了制造業(yè)全流程下的數(shù)據(jù)治理思考。對于制造業(yè)用戶來講,可能思考比較多的是利潤下降,然后如何去降本增效,統(tǒng)一人財物這樣的需求。整個制造業(yè)都有比較多的分析的場景,比如采購、生產(chǎn)、庫存、銷售、品控、售前、售后、財務(wù)營銷等。
下面的話主要是以采購分析來舉例。
其實(shí)在做分析之前,首先要分析什么內(nèi)容。比如說目前是要做采購的分析,然后去分析采購成本、供應(yīng)商或周轉(zhuǎn)等可以列出來幾個主要的分析主題。下面是比較重要的核心指標(biāo)。對于采購管理來說,金額集中度、供應(yīng)商、執(zhí)行率、均價合格率等是比較關(guān)心的指標(biāo)。根據(jù)采購金額,可以評估不同的緯度,不同的供應(yīng)商或者是不同的部門,通過采購金額和成本的比例,可以知道企業(yè)的錢花在哪里,哪個地方花的比較多,或者哪個時間段花的比較猛。
第二部分是可以建立完善的供應(yīng)商的畫像。通過不同的分析維度給供應(yīng)商做整體的評分,包括以下幾個核心指標(biāo)。像評價參數(shù)、價格比率、準(zhǔn)時交貨率、退完成率等綜合因素,可以去畫出供應(yīng)商的四象限。根據(jù)里邊有優(yōu)質(zhì)的或可以挽留的,形成重點(diǎn)發(fā)展的不同維度供應(yīng)商,然后針對不同供應(yīng)商制定不同的采購策略。
第三部,合規(guī)分析。對于采購項目和招投標(biāo)項目,當(dāng)中都會有合規(guī)的風(fēng)險,或供應(yīng)商風(fēng)險的存在。這里的話對于數(shù)據(jù)做及時,進(jìn)行全局的監(jiān)控對于規(guī)避供貨風(fēng)險,或規(guī)避企業(yè)的財務(wù)風(fēng)險,也是有比較重要的意義。
后面最后兩部分,對于采購建議和周轉(zhuǎn)分析上。采購建議周轉(zhuǎn)分析的話,對于企業(yè)運(yùn)營來講,尤其是降本增效是有比較重要的含義的。比如說庫存里邊是有多少的庫存物料,庫存物料既要滿足生產(chǎn)銷售運(yùn)營的要求。同時,又不能有太高的呆滯庫存和呆滯物料,從而能夠保持較高的庫存周轉(zhuǎn)率,同時有較低的金額占用,資金占用,這對于企業(yè)來說是比較重要的問題。需要通過數(shù)據(jù)分析找到在不同的時間階段,不同的日期,整個庫存安全警戒線,以及庫存周轉(zhuǎn)的周轉(zhuǎn)率和周轉(zhuǎn)的天數(shù),還有物料估算它的在途的比例等方面,這些能對整個采購提供比較好的采購建議。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案 ...
2025-09-09