99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)分析的基本流程和方法
數(shù)據(jù)分析的基本流程和方法
2017-10-28
收藏

數(shù)據(jù)分析的基本流程和方法

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的重要性顯得更加突出,但是數(shù)據(jù)分析是一個(gè)相對(duì)比較專業(yè)的領(lǐng)域。數(shù)據(jù)分析的目的性很強(qiáng),數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)建模都要圍繞數(shù)據(jù)分析的目的展開;同時(shí)數(shù)據(jù)分析有對(duì)專業(yè)知識(shí)和技巧要求比較高,如概率統(tǒng)計(jì)、數(shù)學(xué)建模的等。本文將介紹數(shù)據(jù)分析的基本流程和方法,并以一個(gè)數(shù)據(jù)分析的具體實(shí)例來來揭開數(shù)據(jù)分析的神秘面紗。

某大型牙膏制造企業(yè)為了更好地拓展產(chǎn)品市場,有效地管理庫存,公司董事會(huì)要求銷售部門根據(jù)市場調(diào)查,找出公司生產(chǎn)的牙膏銷售量與銷售價(jià)格、廣告投入等之間的關(guān)系,從而預(yù)測出在不同價(jià)格和廣告費(fèi)用下的銷售量。

定義問題

明確數(shù)據(jù)分析目標(biāo)是數(shù)據(jù)分析的出發(fā)點(diǎn)。明確數(shù)據(jù)分析目標(biāo)就是要明確本次數(shù)據(jù)分析要研究的主要問題和預(yù)期的分析目標(biāo)等,簡單的說就是定義問題。

針對(duì)這個(gè)具體問題,最根本的目標(biāo)是預(yù)測不同價(jià)格和廣告費(fèi)用下的銷售量,而且也決定了途徑,找出牙膏銷售量與銷售價(jià)格和廣告投入之間的關(guān)系。所以預(yù)期的分析目標(biāo)確定了,就是預(yù)測不同價(jià)格和廣告費(fèi)用下的銷售量,主要問題如何找到牙膏銷售量與銷售價(jià)格和廣告投入之間的關(guān)系。

當(dāng)對(duì)研究對(duì)象的內(nèi)在特性和各因素間的關(guān)系有比較充分的認(rèn)識(shí)時(shí),一般用機(jī)理分析方法進(jìn)行數(shù)據(jù)分析,但是如果由于客觀事物內(nèi)部規(guī)律的復(fù)雜性及人們認(rèn)識(shí)程度的限制,無法分析實(shí)際對(duì)象內(nèi)在的因果關(guān)系,建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型,那么通常的辦法是搜集大量的數(shù)據(jù),基于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析找到相關(guān)因素的關(guān)系。

預(yù)測牙膏銷量的問題,是一個(gè)“灰箱”問題,無法準(zhǔn)確地在已掌握市場運(yùn)行規(guī)律的基礎(chǔ)上去推理分析藥膏銷量與價(jià)格和廣告投入之間的關(guān)系,再者,要考慮到市場中不只是只有一家牙膏公司。顯然,整個(gè)問題是無法通過簡單推理分析來確定銷量與價(jià)格和廣告投入之間的關(guān)系的。

收集數(shù)據(jù)

正確收集數(shù)據(jù)是指從分析目標(biāo)出發(fā),排除干擾因素,正確收集服務(wù)于既定分析目標(biāo)的數(shù)據(jù)。正確的數(shù)據(jù)對(duì)于實(shí)現(xiàn)數(shù)據(jù)分析目的將起到關(guān)鍵性的作用。如何正確的收集數(shù)據(jù)呢?簡單的說就是用恰當(dāng)?shù)臄?shù)據(jù)收集方法收集正確的的數(shù)據(jù)。

總體上講有三類原始數(shù)據(jù)收集的方法原始數(shù)據(jù)包括實(shí)驗(yàn)方法、調(diào)查方法、觀察方法等,

實(shí)驗(yàn)研究是一種受控的觀測方法,通過一個(gè)或多個(gè)自變量的變化來評(píng)估它對(duì)一個(gè)或多個(gè)因變量產(chǎn)生的效應(yīng)。統(tǒng)計(jì)調(diào)查研究(survey research)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,包括政治學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)和管理學(xué)科。它是以研究樣本的數(shù)據(jù)為基礎(chǔ)辨析總體狀況的研究方法。實(shí)地研究(fieldresearch)是對(duì)自然狀態(tài)下的研究對(duì)象進(jìn)行直接觀察,收集一段時(shí)期內(nèi)若干變量的數(shù)據(jù)。實(shí)地研究(fieldresearch)是對(duì)自然狀態(tài)下的研究對(duì)象進(jìn)行直接觀察,收集一段時(shí)期內(nèi)若干變量的數(shù)據(jù)。每種數(shù)據(jù)收集的方法都有自己的優(yōu)缺點(diǎn)和適用范圍,這里不詳談。

針對(duì)這個(gè)問題將采用樣本統(tǒng)計(jì)調(diào)查(sample survey)的方法,但是該收集那些數(shù)據(jù)呢?研究的主要問題就是發(fā)現(xiàn)本公司牙膏銷量與牙膏價(jià)格和廣告投入的關(guān)系。正確的數(shù)據(jù)肯定包含該公司各個(gè)銷售周期的銷售量、銷售價(jià)格和廣告投入。但是從上面的分析中可以看到,本公司的牙膏銷量絕對(duì)和其他公司的牙膏價(jià)格有關(guān)系,因此把其他牙膏公司的銷售價(jià)格也作為數(shù)據(jù)收集對(duì)象。  

數(shù)據(jù)處理

在明確數(shù)據(jù)分析目標(biāo)基礎(chǔ)上收集到的數(shù)據(jù),往往還需要進(jìn)行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進(jìn)一步深入分析和建模的基礎(chǔ)。

回到具體問題,收集到的數(shù)據(jù)有該公司的每個(gè)銷售周期的牙膏銷售量、價(jià)格、廣告投入、和其他牙膏公司的價(jià)格。其他牙膏公司的價(jià)格和各公司的牙膏銷售量有關(guān)系,但是其他公司的藥膏價(jià)格卻是有很多統(tǒng)計(jì)變量組成的,但是這些變量的影響作用是具有同樣的規(guī)律,可以把這些變量看做一個(gè)整體,于是可以對(duì)這些統(tǒng)計(jì)變量做個(gè)取均值的處理,這是對(duì)數(shù)據(jù)處理的第一步。

由于牙膏是生活必需品,對(duì)大多數(shù)顧客來說,在購買同類產(chǎn)品的牙膏時(shí)更多地會(huì)在意不同品牌之間的價(jià)格差異,而不是它們的價(jià)格本身因此,在研究各個(gè)因素對(duì)銷售量的影響時(shí),用價(jià)格差代替公司銷售價(jià)格和其它廠家平均價(jià)格更為合適。這是對(duì)數(shù)據(jù)處理的第二步。


記牙膏銷售量為y,其它廠家平均價(jià)格與公司銷售價(jià)格之差(價(jià)格差)為x1公司投入的廣告費(fèi)用為x2,其它廠家平均價(jià)格和公司銷售價(jià)格分別為x3和x4, x1=x3-x4.

為了大致分析請(qǐng)y與x1和x2的關(guān)系,我們可以分別簡單的繪制y對(duì)x1和x2的散點(diǎn)圖。

圖 1 y對(duì)x1的散點(diǎn)圖

從圖1可以發(fā)現(xiàn),隨著x1的增加,y的值有比較明顯的線性增長趨勢,圖中的直線是用線性模型。

圖 2 y對(duì)x2的散點(diǎn)圖

當(dāng)x2增大時(shí),y有向上彎曲增加的趨勢,圖中的曲線使用二次函數(shù)擬合的,可以看到二者具有非線性關(guān)系。

數(shù)據(jù)建模

數(shù)據(jù)加工整理完成后一般就可以進(jìn)行進(jìn)一步的數(shù)據(jù)分析了。分析時(shí)應(yīng)切忌濫用和誤用統(tǒng)計(jì)分析方法。濫用和誤用統(tǒng)計(jì)分析方法主要是由于對(duì)方法能解決哪類問題、方法適用的前提、方法對(duì)數(shù)據(jù)的要求不清等原因造成的。另外,統(tǒng)計(jì)軟件的不斷普及和應(yīng)用中的不求甚解也會(huì)加重這種現(xiàn)象。因此,在數(shù)據(jù)分析中應(yīng)避免盲目的"拿來主義",否則,得到的分析結(jié)論可能會(huì)偏差較大甚至發(fā)生錯(cuò)誤。

另外,選擇幾種統(tǒng)計(jì)分析方法對(duì)數(shù)據(jù)進(jìn)行探索性的反復(fù)分析也是極為重要的。每一種統(tǒng)計(jì)分析方法都有自己的特點(diǎn)和局限,因此,一般需要選擇幾種方法反復(fù)印證分析,僅依據(jù)一種分析方法的結(jié)果就斷然下結(jié)論是不科學(xué)的。

很對(duì)本問題,經(jīng)過數(shù)據(jù)的簡單處理和分析,已經(jīng)可以看到銷售量總體上和價(jià)格差成線性關(guān)系,銷售量和廣告投入上成非線性關(guān)系,因此可以建立一個(gè)回歸模型,根據(jù)統(tǒng)計(jì)信息來求解模型,獲得變量的系數(shù),完成對(duì)模型的求解。

從圖1可以發(fā)現(xiàn),隨著x1的增加,y的值有比較明顯的線性增長趨勢,可以得到公式1,

(1)

從圖2中可以你發(fā)現(xiàn),當(dāng)x2增大時(shí),y有向上彎曲增加的趨勢,可以得到公式2,

(2)

根據(jù)以上分析可以建立如下回歸模型(3)

(3)

其中和成為回歸變量,,,,就是回歸系數(shù),影響的其它因素包含在隨機(jī)誤差中。

直接利用MATLAB中統(tǒng)計(jì)工具箱中的命令regress求解,使用格式為

[b,bint,r,rint,stats] = regress(y,x,alpha).其中,y為表中30個(gè)周期的銷售量,長度為30的一向量,x為回歸系數(shù)的數(shù)據(jù)矩陣[1,,,],是一個(gè)30*4的向量,b為回歸系數(shù)向量的估計(jì)值,bint為其置信區(qū)間,r為殘差向量,rint為殘差向量的置信區(qū)間,stats為回歸模型的檢驗(yàn)統(tǒng)計(jì)量,包括三個(gè)變量,回歸方程的決定系數(shù),F(xiàn)統(tǒng)計(jì)變量值,與F統(tǒng)計(jì)變量值對(duì)應(yīng)的概率p。

分析與結(jié)論

數(shù)據(jù)分析的直接結(jié)果是統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)。正確理解它們的統(tǒng)計(jì)含義是一切分析結(jié)論的基礎(chǔ),它不僅能幫助人們有效避免毫無根據(jù)地隨意引用統(tǒng)計(jì)數(shù)字的錯(cuò)誤,同時(shí)也是證實(shí)分析結(jié)論正確性和可信性的依據(jù),而這一切都取決于人們能否正確地把握統(tǒng)計(jì)分析方法的核心思想。

另外,將統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)與實(shí)際問題相結(jié)合也是非常重要的??陀^地說,統(tǒng)計(jì)方法僅僅是一種有用的數(shù)據(jù)分析工具,它絕不是萬能的。統(tǒng)計(jì)方法是否能夠正確地解決各學(xué)科的具體問題不僅取決于應(yīng)用統(tǒng)計(jì)方法或工具的人能否正確地選擇統(tǒng)計(jì)方法,還取決于他們是否具有深厚的應(yīng)用背景。只有將各學(xué)科的專業(yè)知識(shí)與統(tǒng)計(jì)量和統(tǒng)計(jì)參數(shù)相結(jié)合,才能得出令人滿意的分析結(jié)論。

本問題的計(jì)算結(jié)果如下:



且=0.9054, F = 82.9409, p= 0

=0.9054表示銷售量的90.54%可由上述模型確定,F(xiàn)值遠(yuǎn)超過F檢驗(yàn)的臨界值,p遠(yuǎn)小于0.05,因而從總體上看模型是可用的。

回歸模型的一個(gè)重要應(yīng)用是,對(duì)于給定的回歸變量的取值,可以以一定的置信度預(yù)測因變量的取值范圍,即預(yù)測區(qū)間。比如當(dāng)x1=0.2,x2=6.5 時(shí)可以算出牙膏銷售量的置信度為95的預(yù)測區(qū)間[7.8230,8.7636],它表明在將來的某個(gè)銷售周期中,如公司維持產(chǎn)品的價(jià)格差為0.2元,并投入650萬元的廣告費(fèi)用,那么可以有95%的把握保證牙膏的銷售量在7.8230,8.7636百萬支之間,實(shí)際操作時(shí),預(yù)測上限可以用來作為庫存管理的目標(biāo)值,即公司可以生產(chǎn)(或庫存)8.763百萬支牙膏來滿足該銷售周期顧客的需求;預(yù)測下限則可以用

來較好地把握(或控制)公司的現(xiàn)金流,理由是公司對(duì)該周期銷售7.8230  百萬支

牙膏十分自信.這在實(shí)際中將具有非常大的作用。



數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }