99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

數(shù)據(jù)挖掘過程中：數(shù)據(jù)預處理

2016-09-10

數(shù)據(jù)挖掘過程中：數(shù)據(jù)預處理

在數(shù)據(jù)分析之前，我們通常需要先將數(shù)據(jù)標準化（normalization），利用標準化后的數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)標準化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質數(shù)據(jù)問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標數(shù)據(jù)性質，使所有指標對測評方案的作用力同趨化，再加總才能得出正確結果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標準化的方法有很多種，常用的有“最小—最大標準化”、“Z-score標準化”和“按小數(shù)定標標準化”等。經(jīng)過上述標準化處理，原始數(shù)據(jù)均轉換為無量綱化指標測評值，即各指標值都處于同一個數(shù)量級別上，可以進行綜合測評分析。

數(shù)據(jù)的標準化過程也是歸一化的過程。

數(shù)據(jù)的標準化（normalization）是將數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間。在某些比較和評價的指標處理中經(jīng)常會用到，去除數(shù)據(jù)的單位限制，將其轉化為無量綱的純數(shù)值，便于不同單位或量級的指標能夠進行比較和加權。

數(shù)據(jù)歸一化的目的是為了把不同來源的數(shù)據(jù)統(tǒng)一到一個參考系下，這樣比較起來才有意義。

1 定義

歸一化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后（通過某種算法）限制在你需要的一定范圍內。首先歸一化是為了后面數(shù)據(jù)處理的方便，其次是保正程序運行時收斂加快。

2 為什么要用歸一化呢？

首先先說一個概念，叫做奇異樣本數(shù)據(jù)，所謂奇異樣本數(shù)據(jù)數(shù)據(jù)指的是相對于其他輸入樣本特別大或特別小的樣本矢量。

下面舉例：

m=[0.11 0.15 0.32 0.45 30;

0.13 0.24 0.27 0.25 45];

其中的第五列數(shù)據(jù)相對于其他4列數(shù)據(jù)就可以成為奇異樣本數(shù)據(jù)（下面所說的網(wǎng)絡均值bp）。奇異樣本數(shù)據(jù)存在所引起的網(wǎng)絡訓練時間增加，并可能引起網(wǎng)絡無法收斂，所以對于訓練樣本存在奇異樣本數(shù)據(jù)的數(shù)據(jù)集在訓練之前，最好先進形歸一化，若不存在奇異樣本數(shù)據(jù)，則不需要事先歸一化。

3 歸一化方法

主要有如下幾種，供大家參考：（by james）

（1）線性函數(shù)轉換，表達式如下：

y=(x-MinValue)/(MaxValue-MinValue)

說明：x、y分別為轉換前、后的值，MaxValue、MinValue分別為樣本的最大值和最小值。

在統(tǒng)計學中，歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性。歸一化在0-1之間是統(tǒng)計的概率分布，歸一化在-1--+1之間是統(tǒng)計的坐標分布。

（2）對數(shù)函數(shù)轉換，表達式如下：

y=log10(x)

說明：以10為底的對數(shù)函數(shù)轉換。

進行Log分析時，會將原本絕對化的時間序列歸一化到某個基準時刻，形成相對時間序列，方便排查。

通過以10為底的log函數(shù)轉換的方法同樣可以實現(xiàn)歸一下，具體方法也可以如下：

看了下網(wǎng)上很多介紹都是x‘=log10(x)，其實是有問題的，這個結果并非一定落到[0,1]區(qū)間上，應該還要除以 log10(max)，max為樣本數(shù)據(jù)最大值，并且所有的數(shù)據(jù)都要大于等于1。

（3）反余切函數(shù)轉換，表達式如下：

y=atan(x)*2/PI

歸一化是為了加快訓練網(wǎng)絡的收斂性，可以不進行歸一化處理

（4）z-score 標準化(zero-mean normalization)

也叫標準差標準化，經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布，即均值為0，標準差為1，其轉化函數(shù)為：

其中μ為所有樣本數(shù)據(jù)的均值，σ為所有樣本數(shù)據(jù)的標準差。

4 在matlab里面，用于歸一化的方法共有三種:

（1）premnmx、postmnmx、tramnmx

（2）prestd、poststd、trastd

（3）是用matlab語言自己編程。

premnmx指的是歸一到[－1 1]；prestd歸一到單位方差和零均值；關于自己編程一般是歸一到[0.1 0.9] 。

5 注意

需要說明的事并不是任何問題都必須事先把原始數(shù)據(jù)進行規(guī)范化,也就是數(shù)據(jù)規(guī)范化這一步并不是必須要做的,要具體問題具體看待,測試表明有時候規(guī)范化后的預測準確率比沒有規(guī)范化的預測準確率低很多.就最大最小值法而言,當你用這種方式將原始數(shù)據(jù)規(guī)范化后,事實上意味著你承認了一個假設就是測試數(shù)據(jù)集的每一模式的所有特征分量的最大值(最小值)不會大于(小于)訓練數(shù)據(jù)集的每一模式的所有特征分量的最大值(最小值),但這條假設顯然過于強,實際情況并不一定會這樣.使用平均數(shù)方差法也會有同樣類似的問題.故數(shù)據(jù)規(guī)范化這一步并不是必須要做的,要具體問題具體看待.

歸一化首先在維數(shù)非常多的時候，可以防止某一維或某幾維對數(shù)據(jù)影響過大，其次可以程序可以運行更快。方法很多，min-max,z-score,p范數(shù)等，具體怎么使用，要根據(jù)數(shù)據(jù)集的特征來選擇。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數(shù)據(jù)標準化特征數(shù)據(jù)分析正態(tài)分布數(shù)據(jù)挖掘

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘過程中：數(shù)據(jù)預處理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘過程中：數(shù)據(jù)預處理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...