
數(shù)據(jù)分析的基本流程和方法
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的重要性顯得更加突出,但是數(shù)據(jù)分析是一個(gè)相對(duì)比較專業(yè)的領(lǐng)域。數(shù)據(jù)分析的目的性很強(qiáng),數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)建模都要圍繞數(shù)據(jù)分析的目的展開;同時(shí)數(shù)據(jù)分析有對(duì)專業(yè)知識(shí)和技巧要求比較高,如概率統(tǒng)計(jì)、數(shù)學(xué)建模的等。本文將介紹數(shù)據(jù)分析的基本流程和方法,并以一個(gè)數(shù)據(jù)分析的具體實(shí)例來來揭開數(shù)據(jù)分析的神秘面紗。
某大型牙膏制造企業(yè)為了更好地拓展產(chǎn)品市場,有效地管理庫存,公司董事會(huì)要求銷售部門根據(jù)市場調(diào)查,找出公司生產(chǎn)的牙膏銷售量與銷售價(jià)格、廣告投入等之間的關(guān)系,從而預(yù)測出在不同價(jià)格和廣告費(fèi)用下的銷售量。
定義問題
明確數(shù)據(jù)分析目標(biāo)是數(shù)據(jù)分析的出發(fā)點(diǎn)。明確數(shù)據(jù)分析目標(biāo)就是要明確本次數(shù)據(jù)分析要研究的主要問題和預(yù)期的分析目標(biāo)等,簡單的說就是定義問題。
針對(duì)這個(gè)具體問題,最根本的目標(biāo)是預(yù)測不同價(jià)格和廣告費(fèi)用下的銷售量,而且也決定了途徑,找出牙膏銷售量與銷售價(jià)格和廣告投入之間的關(guān)系。所以預(yù)期的分析目標(biāo)確定了,就是預(yù)測不同價(jià)格和廣告費(fèi)用下的銷售量,主要問題如何找到牙膏銷售量與銷售價(jià)格和廣告投入之間的關(guān)系。
當(dāng)對(duì)研究對(duì)象的內(nèi)在特性和各因素間的關(guān)系有比較充分的認(rèn)識(shí)時(shí),一般用機(jī)理分析方法進(jìn)行數(shù)據(jù)分析,但是如果由于客觀事物內(nèi)部規(guī)律的復(fù)雜性及人們認(rèn)識(shí)程度的限制,無法分析實(shí)際對(duì)象內(nèi)在的因果關(guān)系,建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型,那么通常的辦法是搜集大量的數(shù)據(jù),基于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析找到相關(guān)因素的關(guān)系。
預(yù)測牙膏銷量的問題,是一個(gè)“灰箱”問題,無法準(zhǔn)確地在已掌握市場運(yùn)行規(guī)律的基礎(chǔ)上去推理分析藥膏銷量與價(jià)格和廣告投入之間的關(guān)系,再者,要考慮到市場中不只是只有一家牙膏公司。顯然,整個(gè)問題是無法通過簡單推理分析來確定銷量與價(jià)格和廣告投入之間的關(guān)系的。
收集數(shù)據(jù)
正確收集數(shù)據(jù)是指從分析目標(biāo)出發(fā),排除干擾因素,正確收集服務(wù)于既定分析目標(biāo)的數(shù)據(jù)。正確的數(shù)據(jù)對(duì)于實(shí)現(xiàn)數(shù)據(jù)分析目的將起到關(guān)鍵性的作用。如何正確的收集數(shù)據(jù)呢?簡單的說就是用恰當(dāng)?shù)臄?shù)據(jù)收集方法收集正確的的數(shù)據(jù)。
總體上講有三類原始數(shù)據(jù)收集的方法原始數(shù)據(jù)包括實(shí)驗(yàn)方法、調(diào)查方法、觀察方法等,
實(shí)驗(yàn)研究是一種受控的觀測方法,通過一個(gè)或多個(gè)自變量的變化來評(píng)估它對(duì)一個(gè)或多個(gè)因變量產(chǎn)生的效應(yīng)。統(tǒng)計(jì)調(diào)查研究(survey research)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,包括政治學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)和管理學(xué)科。它是以研究樣本的數(shù)據(jù)為基礎(chǔ)辨析總體狀況的研究方法。實(shí)地研究(fieldresearch)是對(duì)自然狀態(tài)下的研究對(duì)象進(jìn)行直接觀察,收集一段時(shí)期內(nèi)若干變量的數(shù)據(jù)。實(shí)地研究(fieldresearch)是對(duì)自然狀態(tài)下的研究對(duì)象進(jìn)行直接觀察,收集一段時(shí)期內(nèi)若干變量的數(shù)據(jù)。每種數(shù)據(jù)收集的方法都有自己的優(yōu)缺點(diǎn)和適用范圍,這里不詳談。
針對(duì)這個(gè)問題將采用樣本統(tǒng)計(jì)調(diào)查(sample survey)的方法,但是該收集那些數(shù)據(jù)呢?研究的主要問題就是發(fā)現(xiàn)本公司牙膏銷量與牙膏價(jià)格和廣告投入的關(guān)系。正確的數(shù)據(jù)肯定包含該公司各個(gè)銷售周期的銷售量、銷售價(jià)格和廣告投入。但是從上面的分析中可以看到,本公司的牙膏銷量絕對(duì)和其他公司的牙膏價(jià)格有關(guān)系,因此把其他牙膏公司的銷售價(jià)格也作為數(shù)據(jù)收集對(duì)象。
數(shù)據(jù)處理
在明確數(shù)據(jù)分析目標(biāo)基礎(chǔ)上收集到的數(shù)據(jù),往往還需要進(jìn)行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進(jìn)一步深入分析和建模的基礎(chǔ)。
回到具體問題,收集到的數(shù)據(jù)有該公司的每個(gè)銷售周期的牙膏銷售量、價(jià)格、廣告投入、和其他牙膏公司的價(jià)格。其他牙膏公司的價(jià)格和各公司的牙膏銷售量有關(guān)系,但是其他公司的藥膏價(jià)格卻是有很多統(tǒng)計(jì)變量組成的,但是這些變量的影響作用是具有同樣的規(guī)律,可以把這些變量看做一個(gè)整體,于是可以對(duì)這些統(tǒng)計(jì)變量做個(gè)取均值的處理,這是對(duì)數(shù)據(jù)處理的第一步。
由于牙膏是生活必需品,對(duì)大多數(shù)顧客來說,在購買同類產(chǎn)品的牙膏時(shí)更多地會(huì)在意不同品牌之間的價(jià)格差異,而不是它們的價(jià)格本身因此,在研究各個(gè)因素對(duì)銷售量的影響時(shí),用價(jià)格差代替公司銷售價(jià)格和其它廠家平均價(jià)格更為合適。這是對(duì)數(shù)據(jù)處理的第二步。
記牙膏銷售量為y,其它廠家平均價(jià)格與公司銷售價(jià)格之差(價(jià)格差)為x1公司投入的廣告費(fèi)用為x2,其它廠家平均價(jià)格和公司銷售價(jià)格分別為x3和x4, x1=x3-x4.
為了大致分析請(qǐng)y與x1和x2的關(guān)系,我們可以分別簡單的繪制y對(duì)x1和x2的散點(diǎn)圖。
圖 1 y對(duì)x1的散點(diǎn)圖
從圖1可以發(fā)現(xiàn),隨著x1的增加,y的值有比較明顯的線性增長趨勢,圖中的直線是用線性模型。
圖 2 y對(duì)x2的散點(diǎn)圖
當(dāng)x2增大時(shí),y有向上彎曲增加的趨勢,圖中的曲線使用二次函數(shù)擬合的,可以看到二者具有非線性關(guān)系。
數(shù)據(jù)加工整理完成后一般就可以進(jìn)行進(jìn)一步的數(shù)據(jù)分析了。分析時(shí)應(yīng)切忌濫用和誤用統(tǒng)計(jì)分析方法。濫用和誤用統(tǒng)計(jì)分析方法主要是由于對(duì)方法能解決哪類問題、方法適用的前提、方法對(duì)數(shù)據(jù)的要求不清等原因造成的。另外,統(tǒng)計(jì)軟件的不斷普及和應(yīng)用中的不求甚解也會(huì)加重這種現(xiàn)象。因此,在數(shù)據(jù)分析中應(yīng)避免盲目的"拿來主義",否則,得到的分析結(jié)論可能會(huì)偏差較大甚至發(fā)生錯(cuò)誤。
另外,選擇幾種統(tǒng)計(jì)分析方法對(duì)數(shù)據(jù)進(jìn)行探索性的反復(fù)分析也是極為重要的。每一種統(tǒng)計(jì)分析方法都有自己的特點(diǎn)和局限,因此,一般需要選擇幾種方法反復(fù)印證分析,僅依據(jù)一種分析方法的結(jié)果就斷然下結(jié)論是不科學(xué)的。
很對(duì)本問題,經(jīng)過數(shù)據(jù)的簡單處理和分析,已經(jīng)可以看到銷售量總體上和價(jià)格差成線性關(guān)系,銷售量和廣告投入上成非線性關(guān)系,因此可以建立一個(gè)回歸模型,根據(jù)統(tǒng)計(jì)信息來求解模型,獲得變量的系數(shù),完成對(duì)模型的求解。
從圖1可以發(fā)現(xiàn),隨著x1的增加,y的值有比較明顯的線性增長趨勢,可以得到公式1,
(1)
從圖2中可以你發(fā)現(xiàn),當(dāng)x2增大時(shí),y有向上彎曲增加的趨勢,可以得到公式2,
(2)
根據(jù)以上分析可以建立如下回歸模型(3)
(3)
其中和成為回歸變量,,,,就是回歸系數(shù),影響的其它因素包含在隨機(jī)誤差中。
直接利用MATLAB中統(tǒng)計(jì)工具箱中的命令regress求解,使用格式為
[b,bint,r,rint,stats] = regress(y,x,alpha).其中,y為表中30個(gè)周期的銷售量,長度為30的一向量,x為回歸系數(shù)的數(shù)據(jù)矩陣[1,,,],是一個(gè)30*4的向量,b為回歸系數(shù)向量的估計(jì)值,bint為其置信區(qū)間,r為殘差向量,rint為殘差向量的置信區(qū)間,stats為回歸模型的檢驗(yàn)統(tǒng)計(jì)量,包括三個(gè)變量,回歸方程的決定系數(shù),F(xiàn)統(tǒng)計(jì)變量值,與F統(tǒng)計(jì)變量值對(duì)應(yīng)的概率p。
分析與結(jié)論
數(shù)據(jù)分析的直接結(jié)果是統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)。正確理解它們的統(tǒng)計(jì)含義是一切分析結(jié)論的基礎(chǔ),它不僅能幫助人們有效避免毫無根據(jù)地隨意引用統(tǒng)計(jì)數(shù)字的錯(cuò)誤,同時(shí)也是證實(shí)分析結(jié)論正確性和可信性的依據(jù),而這一切都取決于人們能否正確地把握統(tǒng)計(jì)分析方法的核心思想。
另外,將統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)與實(shí)際問題相結(jié)合也是非常重要的??陀^地說,統(tǒng)計(jì)方法僅僅是一種有用的數(shù)據(jù)分析工具,它絕不是萬能的。統(tǒng)計(jì)方法是否能夠正確地解決各學(xué)科的具體問題不僅取決于應(yīng)用統(tǒng)計(jì)方法或工具的人能否正確地選擇統(tǒng)計(jì)方法,還取決于他們是否具有深厚的應(yīng)用背景。只有將各學(xué)科的專業(yè)知識(shí)與統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)相結(jié)合,才能得出令人滿意的分析結(jié)論。
本問題的計(jì)算結(jié)果如下:
且=0.9054, F = 82.9409, p= 0
=0.9054表示銷售量的90.54%可由上述模型確定,F(xiàn)值遠(yuǎn)超過F檢驗(yàn)的臨界值,p遠(yuǎn)小于0.05,因而從總體上看模型是可用的。
回歸模型的一個(gè)重要應(yīng)用是,對(duì)于給定的回歸變量的取值,可以以一定的置信度預(yù)測因變量的取值范圍,即預(yù)測區(qū)間。比如當(dāng)x1=0.2,x2=6.5 時(shí)可以算出牙膏銷售量的置信度為95的預(yù)測區(qū)間[7.8230,8.7636],它表明在將來的某個(gè)銷售周期中,如公司維持產(chǎn)品的價(jià)格差為0.2元,并投入650萬元的廣告費(fèi)用,那么可以有95%的把握保證牙膏的銷售量在7.8230,8.7636百萬支之間,實(shí)際操作時(shí),預(yù)測上限可以用來作為庫存管理的目標(biāo)值,即公司可以生產(chǎn)(或庫存)8.763百萬支牙膏來滿足該銷售周期顧客的需求;預(yù)測下限則可以用
來較好地把握(或控制)公司的現(xiàn)金流,理由是公司對(duì)該周期銷售7.8230 百萬支
牙膏十分自信.這在實(shí)際中將具有非常大的作用。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03