99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)科學中隱藏的數(shù)據(jù)智慧
數(shù)據(jù)科學中隱藏的數(shù)據(jù)智慧
2016-05-27
收藏

數(shù)據(jù)科學中隱藏的數(shù)據(jù)智慧

大數(shù)據(jù)時代,學術界和業(yè)界的大量研究都是關于如何以一種可擴展和高效率的方式來對數(shù)據(jù)進行儲存,交換和計算(通過統(tǒng)計方法和算法)。這些研究領域無疑非常重要,然而,只有當我們對數(shù)據(jù)智慧(Data Wisdom)也給予同等程度的重視時,大數(shù)據(jù)(或者小型數(shù)據(jù))才能被轉換為真正的知識和有用的,可被采納的信息。換而言之,我們要認識到必須擁有足夠數(shù)量的數(shù)據(jù)才有可能對復雜度較高的問題給出較可靠的答案?!皵?shù)據(jù)智慧”對于我們從數(shù)據(jù)中提取有效信息和確保沒有誤用或夸大原始數(shù)據(jù)是至關重要的。


 
要讓統(tǒng)計圈以外的人了解,“數(shù)據(jù)智慧”是非常必要的重命名,因為它比“應用統(tǒng)計學”這個術語能更好概括其核心成分。 這樣一個有信息量的名稱可以使人們意識到應用統(tǒng)計作為數(shù)據(jù)科學一部分的重要性。
引用維基百科中對“智慧“這一詞條解釋的第一句話,我想說:
“數(shù)據(jù)智慧“是將領域知識、數(shù)學和方法論與經驗、理解、常識、洞察力以及良好的判斷力相結合,思辨性地理解數(shù)據(jù)和依據(jù)數(shù)據(jù)做決策的一種能力。
“數(shù)據(jù)智慧“是數(shù)學、自然科學和人文主義這三方面能力的融合,是科學和藝術的結合。在缺乏有實踐經驗者的指導下,個人很難僅僅靠從讀書中獲得“數(shù)據(jù)智慧”, 想要學習它的最好方法就是和擁有它的人一起共事。當然,我們也可以通過問答方式來幫助形成和培養(yǎng)“數(shù)據(jù)智慧”的能力。我這里有10個基本問題,我鼓勵人們在開始從事數(shù)據(jù)分析項目或者在其過程中可以經常問問自己。這些問題剛開始時是按照一定順序排列的,但是在不斷重復的數(shù)據(jù)分析過程中,這個順序完全可以被打亂。
這些問題也許無法詳盡徹底的解釋“數(shù)據(jù)智慧”,但是它們體現(xiàn)了“數(shù)據(jù)智慧”的一些特點:
1.要回答的問題
數(shù)據(jù)科學的問題最開始往往來自于統(tǒng)計學或者數(shù)據(jù)科學以外的學科。例如,神經科學中的一個問題:大腦是如何工作的?或銀行業(yè)中的一個問題:該對哪組顧客推廣新服務?要解決這些問題,統(tǒng)計學家必須要與該領域的專家進行合作。這些專家會提供有助于解決問題的領域知識,早期研究成果,更廣闊的視角,甚至可能是對該問題的重新定義。與這些(往往可能很忙)專家建立聯(lián)系需要很強的人際交流技巧。
而這種交流對于數(shù)據(jù)科學項目的成功是必不可少的。在有充足數(shù)據(jù)來源的情況下,經常發(fā)生情況的是在數(shù)據(jù)收集前要回答的問題還沒有被精確定義。正如 Tukey 所說的那樣:“我們在 ‘探索性數(shù)據(jù)分析(Exploratory Data Analysis)’的游戲中?!蔽覀儗ふ倚枰卮鸬膯栴},然后不斷重復統(tǒng)計調查過程(就像上文提到的 George Box 的文章中所述)。由于誤差的存在,我們謹慎的避免對于數(shù)據(jù)中出現(xiàn)的模式進行過度擬合。例如,當同一份數(shù)據(jù)既被用于問題的建模又被用于問題的驗證時,過度擬合就會發(fā)生。一條黃金準則就是將數(shù)據(jù)分割,在分割時考慮到數(shù)據(jù)潛在的結構(如相關性,聚類性,異質性)使分割后的每部分數(shù)據(jù)都對原始數(shù)據(jù)具有代表性。用其中一部分來探索問題,而另一部分用來通過預測或者建模來回答問題。
2.數(shù)據(jù)收集
實驗設計(統(tǒng)計學的一個分支)和主動學習(機器學習的一個分支)中的方法對解決這個問題有所幫助。即使是在數(shù)據(jù)已經收集好了以后,考慮這個問題也是很有必要的。因為對理想的數(shù)據(jù)收集機制的理解可以暴露出實際數(shù)據(jù)收集過程的缺陷,能夠指導下一步分析的方向。
下面的問題會有所幫助:
數(shù)據(jù)是如何收集的? 在哪些地點?在什么時間段?誰收集的?用什么設備收集的?中途操作人員和設備被更換過嗎?
總之,試著想象自己親身在數(shù)據(jù)收集現(xiàn)場。
3.數(shù)據(jù)含義
數(shù)據(jù)中的某個數(shù)值代表了什么含義?它測量了什么?它是否測量要測量的?哪些環(huán)節(jié)可能會出差錯?在哪些統(tǒng)計假設下可以認為數(shù)據(jù)收集沒有問題?(對數(shù)據(jù)收集過程的詳細了解在這會很有幫助。)
4.相關性
收集來的數(shù)據(jù)能完全或部分地回答要研究的問題嗎?如果不能,還需要收集什么其他數(shù)據(jù)?第2個問題中提到的要點在此處同樣受用。
5.問題轉化
如何將(1)中的問題轉化成一個數(shù)據(jù)相關的統(tǒng)計問題,使之能夠很好回答與原始問題呢?有多種轉換方式嗎?比如,我們可以把問題轉換成一個與統(tǒng)計模型有關的預測問題或者統(tǒng)計推斷問題嗎?在選擇模型前,列出將每一種能解決與實質性問題的轉化方式的優(yōu)點和缺點。
6.可比性
各數(shù)據(jù)單元是否是可比的,或經過標準化處理而可視為可交換的?蘋果和橘子是否被組合在一起了?數(shù)據(jù)單元是否相互獨立?兩列數(shù)據(jù)是不是同一個變量的副本?
7.可視化
觀察數(shù)據(jù)(或其子集),制作一維或二維圖表,并檢驗這些的數(shù)據(jù)的統(tǒng)計量。詢問數(shù)據(jù)范圍是什么?數(shù)據(jù)正常嗎?是否有缺失值?多使用顏色和動態(tài)圖,注意有意料之外的情況記住,我們大腦皮層的30%都是用來處理圖像的,所以可視化在挖掘數(shù)據(jù)模式和特殊情況時非常有效。通常情況,為了找到大數(shù)據(jù)的模式,可視化在建立某些模型之后使用最有用,比如,計算殘差并進行可視化展示。
8.隨機性
統(tǒng)計推斷的概念,比如p值和置信區(qū)間,都依賴于隨機性。那數(shù)據(jù)中的隨機性是什么含義呢?我們要對統(tǒng)計模型的隨機性盡量明確地定義。哪些所研究的領域中知識支持所用統(tǒng)計模型中的隨機性的描述?一個表現(xiàn)統(tǒng)計模型中隨機性的最好例子,就是因果關系分析中 Neyman-Rubin 的隨機分組原理(在AB檢驗中也有使用)。
9.穩(wěn)定性
你會使用哪些現(xiàn)有的方法?不同的方法會得出同一個定性的結論嗎?對數(shù)據(jù)進行隨機擾動,例如,可以通過添加噪聲或二次抽樣實現(xiàn)(一般來說,應確定二層樣本有原樣本的結構,如相關性,聚類特性和異質性,這樣二層樣本能較好地代表原始數(shù)據(jù))。結論依然成立嗎?我們應該只相信那些能通過穩(wěn)定性檢驗的方法,穩(wěn)定性檢驗簡單易行,能夠抗過度擬合和過多假陽性發(fā)現(xiàn),具有可重復性(要了解關于穩(wěn)定性重要程度的更多信息,請參看文章)。
可重復性研究最近在科學界中吸引了很多注意,請參照《Nature》特刊?!禨cience》的主編 Marcia McNutt 指出“實驗再現(xiàn)是科學家用以增加結論信度的一種重要方法”。同樣,商業(yè)和政府實體也應該要求從數(shù)據(jù)分析中得出的結論,當用新的同質數(shù)據(jù)檢驗時是可再重復的。
10.結果驗證
人們怎樣能知道數(shù)據(jù)分析是不是做的好呢?衡量標準是什么?可以考慮用其他類型的數(shù)據(jù)或者先驗知識來衡量有效性,不過可能需要收集新的數(shù)據(jù)以確認結果的有效程度。
數(shù)據(jù)分析時還有許多其他問題要考慮,但我希望上面的這些問題能使你對如何獲取“數(shù)據(jù)智慧”產生一點感覺。作為一個統(tǒng)計學家,這些問題的答案需要在統(tǒng)計學之外獲取。要找到可靠的答案,有效的信息源包括“死的”(如科學文獻、報告和書籍)和“活的”(如人)。出色的人際交流技能使得尋找正確信息源的過程簡單了許多,即使是在尋求“死的”信息源的過程中也是這樣。因此,為了獲取充足的信息,人際交流技能將更加重要,因為在我的經驗中,知識淵博的人通常是你最好的指路。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }