99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀一篇文章解決你所有關(guān)于數(shù)據(jù)分析的問題
一篇文章解決你所有關(guān)于數(shù)據(jù)分析的問題
2017-07-19
收藏

一篇文章解決你所有關(guān)于數(shù)據(jù)分析的問題

 1. 數(shù)據(jù)分析多層模型介紹

這個(gè)金字塔圖像是數(shù)據(jù)分析的多層模型,從下往上一共有六層:
 
底下第一層稱為Data Sources 元數(shù)據(jù)層。
比如說在生產(chǎn)線上,在生產(chǎn)的數(shù)據(jù)庫里面,各種各樣的數(shù)據(jù),可能是銀行的業(yè)務(wù)數(shù)據(jù),也可能是電信運(yùn)營商在交換機(jī)里面采集下來的數(shù)據(jù)等等,然后這些生產(chǎn)的數(shù)據(jù)通過ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,通過這個(gè)過程,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù)倉庫里面,那這個(gè)數(shù)據(jù)倉庫就是多層模型中的第二層。
數(shù)據(jù)倉庫主要是給我們需要存放的數(shù)據(jù)提供一個(gè)物理基礎(chǔ),我們對數(shù)據(jù)進(jìn)行分析,原材料都放在這個(gè)數(shù)據(jù)倉庫里面,這幾年以來,除了數(shù)據(jù)倉庫這個(gè)概念,還興起了數(shù)據(jù)集市這個(gè)概念,數(shù)據(jù)集市其實(shí)就是部門級的數(shù)據(jù)倉庫,規(guī)模比較小一點(diǎn)的數(shù)據(jù)倉庫。
再上面一層是Data Exploration,這層主要做統(tǒng)計(jì)分析的事情,比如我們算均值、標(biāo)準(zhǔn)差、方差、排序、求最小\大值、中位數(shù)、眾數(shù)等等,這些統(tǒng)計(jì)學(xué)比較常用的指標(biāo),另外還有些SQL查詢語句,總的來說主要是做一些目標(biāo)比較明確,計(jì)算方法比較清楚的事情。
第四層是Data Mining數(shù)據(jù)挖掘層,數(shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計(jì)分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計(jì)量和算法比較清楚,數(shù)據(jù)挖掘往往是目標(biāo)不是很清楚,在實(shí)現(xiàn)目標(biāo)的過程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多。
第五層是數(shù)據(jù)展現(xiàn)層,把數(shù)據(jù)分析和數(shù)據(jù)挖掘得出來的結(jié)果通過數(shù)據(jù)展現(xiàn)層的圖表、報(bào)表把他展現(xiàn)出來,也可以稱為數(shù)據(jù)可視化。
最后把這些圖表、報(bào)表交給決策者,以這個(gè)為基礎(chǔ)做一些決策。
2. 數(shù)據(jù)分析工具簡介
常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫產(chǎn)品,包括IBM的DB2、甲骨文的Oracle數(shù)據(jù)庫。這些廠商的數(shù)據(jù)庫本身帶有一些統(tǒng)計(jì)分析的包,里面有些標(biāo)準(zhǔn)的功能可以做數(shù)據(jù)分析工作,但用這些自帶的數(shù)據(jù)分析工具功能相對不夠?qū)I(yè)。主要反映在缺乏標(biāo)準(zhǔn)的統(tǒng)計(jì)函數(shù),比如做一個(gè)線性回歸模型,需要寫一大堆SQL語句,甚至要寫一個(gè)plsql程序才能完成。但是在專業(yè)的統(tǒng)計(jì)軟件只需要寫一個(gè)簡單的函數(shù)就可以完成。 
 
目前最主流的統(tǒng)計(jì)軟件有R、SAS、SPSS,R是一個(gè)免費(fèi)的開源軟件。
SAS大概是歷史最悠久的統(tǒng)計(jì)軟件,是一個(gè)商業(yè)軟件,在60年代就誕生,在70年代以后逐漸商業(yè)化,發(fā)展到現(xiàn)在SAS已經(jīng)成為國際標(biāo)準(zhǔn)。
SPSS也是一個(gè)歷史悠久的統(tǒng)計(jì)軟件,SPSS一開始是一個(gè)仿真軟件,后來演變成一個(gè)統(tǒng)計(jì)軟件,目前已經(jīng)發(fā)展成為一個(gè)數(shù)據(jù)挖掘軟件,目前被IBM收購,變成IBM旗下的一個(gè)產(chǎn)品,在社會學(xué)研究院領(lǐng)域有很多的應(yīng)用。
其他的還有一些軟件,比如說水晶報(bào)表(Crystal Reports),在做BI和報(bào)表非常擅長,另外如UCINET也是在社會學(xué)比較常用的軟件,它可以畫群體的網(wǎng)絡(luò)圖,社交關(guān)系圖非常擅長。
3. 常用統(tǒng)計(jì)方法
使用統(tǒng)計(jì)方法,有目的地對收集到的數(shù)據(jù)進(jìn)行分析處理,并且解讀分析結(jié)果:
 
常用算法 
 
4. 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫中提取知識的過程,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián),并且向用戶顯示這些關(guān)聯(lián)。
數(shù)據(jù)挖掘思想來源:假設(shè)檢驗(yàn),模式識別,人工智能,機(jī)器學(xué)習(xí)
常見數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類分析,孤立點(diǎn)分析等等
例:啤酒與尿布的故事
5. 展現(xiàn)層:報(bào)表與圖形
展現(xiàn)層在數(shù)據(jù)分析中是一個(gè)很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來就OK了。但其實(shí)結(jié)果算出來以后對于數(shù)據(jù)分析還遠(yuǎn)沒有結(jié)束,還需要把結(jié)果展現(xiàn)出來,有些時(shí)候可能結(jié)果的展現(xiàn)比計(jì)算花的時(shí)間還要多。
下圖是一個(gè)比較老土的報(bào)表。 
 
如果那這種報(bào)表給老板看,那體驗(yàn)效果肯定很差,其實(shí)人的特點(diǎn)對數(shù)字的感覺不敏感,如果你那一大堆數(shù)字組成的報(bào)表給老板看,老板肯定不是很高興。
人對圖形會比較敏感,所以在統(tǒng)計(jì)學(xué)里面通常有比較標(biāo)準(zhǔn)的圖,如餅圖、柱形圖(垂直和水平)、虛線圖、水泡圖、魚骨圖、箱線圖等等。
下面是一張?jiān)?a href='/map/ditu/' style='color:#000;font-size:inherit;'>地圖上展現(xiàn)數(shù)據(jù)的展現(xiàn)形式 
 
下圖是關(guān)于使用安卓手機(jī)的數(shù)據(jù)展現(xiàn) 
 
根據(jù)信息圖顯示,Android先生的頭發(fā)有47%的可能是黑色的,戴眼鏡的幾率為37%,有36%的可能是北美人,30%的可能臉上長雀斑。71%的時(shí) 間會穿T恤,下身穿牛仔褲的時(shí)間占了62%。工作只占了38%,玩游戲卻占了62%,平均每個(gè)月會用掉582MB的數(shù)據(jù)流量。這種圖稱為信息圖,在數(shù)據(jù)分析這個(gè)行業(yè)里面,是數(shù)據(jù)展現(xiàn)工作的主要組成部分。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }