99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀數(shù)據(jù)科學(xué)中隱藏的數(shù)據(jù)智慧
數(shù)據(jù)科學(xué)中隱藏的數(shù)據(jù)智慧
2017-12-19
收藏

數(shù)據(jù)科學(xué)中隱藏的數(shù)據(jù)智慧

在大數(shù)據(jù)時(shí)代,學(xué)術(shù)界和業(yè)界的大量研究都是關(guān)于如何以一種可擴(kuò)展和高效率的方式來(lái)對(duì)數(shù)據(jù)進(jìn)行儲(chǔ)存,交換和計(jì)算(通過(guò)統(tǒng)計(jì)方法和算法)。這些研究領(lǐng)域無(wú)疑非常重要,然而,只有當(dāng)我們對(duì)數(shù)據(jù)智慧(Data Wisdom)也給予同等程度的重視時(shí),大數(shù)據(jù)(或者小型數(shù)據(jù))才能被轉(zhuǎn)換為真正的知識(shí)和有用的,可被采納的信息。換而言之,我們要認(rèn)識(shí)到必須擁有足夠數(shù)量的數(shù)據(jù)才有可能對(duì)復(fù)雜度較高的問(wèn)題給出較可靠的答案?!皵?shù)據(jù)智慧”對(duì)于我們從數(shù)據(jù)中提取有效信息和確保沒(méi)有誤用或夸大原始數(shù)據(jù)是至關(guān)重要的。

要讓統(tǒng)計(jì)圈以外的人了解,“數(shù)據(jù)智慧”是非常必要的重命名,因?yàn)樗取皯?yīng)用統(tǒng)計(jì)學(xué)”這個(gè)術(shù)語(yǔ)能更好概括其核心成分。 這樣一個(gè)有信息量的名稱可以使人們意識(shí)到應(yīng)用統(tǒng)計(jì)作為數(shù)據(jù)科學(xué)一部分的重要性。
引用維基百科中對(duì)“智慧“這一詞條解釋的第一句話,我想說(shuō):
“數(shù)據(jù)智慧“是將領(lǐng)域知識(shí)、數(shù)學(xué)和方法論與經(jīng)驗(yàn)、理解、常識(shí)、洞察力以及良好的判斷力相結(jié)合,思辨性地理解數(shù)據(jù)和依據(jù)數(shù)據(jù)做決策的一種能力。
“數(shù)據(jù)智慧“是數(shù)學(xué)、自然科學(xué)和人文主義這三方面能力的融合,是科學(xué)和藝術(shù)的結(jié)合。在缺乏有實(shí)踐經(jīng)驗(yàn)者的指導(dǎo)下,個(gè)人很難僅僅靠從讀書中獲得“數(shù)據(jù)智慧”, 想要學(xué)習(xí)它的最好方法就是和擁有它的人一起共事。當(dāng)然,我們也可以通過(guò)問(wèn)答方式來(lái)幫助形成和培養(yǎng)“數(shù)據(jù)智慧”的能力。我這里有10個(gè)基本問(wèn)題,我鼓勵(lì)人們?cè)陂_始從事數(shù)據(jù)分析項(xiàng)目或者在其過(guò)程中可以經(jīng)常問(wèn)問(wèn)自己。這些問(wèn)題剛開始時(shí)是按照一定順序排列的,但是在不斷重復(fù)的數(shù)據(jù)分析過(guò)程中,這個(gè)順序完全可以被打亂。
這些問(wèn)題也許無(wú)法詳盡徹底的解釋“數(shù)據(jù)智慧”,但是它們體現(xiàn)了“數(shù)據(jù)智慧”的一些特點(diǎn):
1.要回答的問(wèn)題
數(shù)據(jù)科學(xué)的問(wèn)題最開始往往來(lái)自于統(tǒng)計(jì)學(xué)或者數(shù)據(jù)科學(xué)以外的學(xué)科。例如,神經(jīng)科學(xué)中的一個(gè)問(wèn)題:大腦是如何工作的?或銀行業(yè)中的一個(gè)問(wèn)題:該對(duì)哪組顧客推廣新服務(wù)?要解決這些問(wèn)題,統(tǒng)計(jì)學(xué)家必須要與該領(lǐng)域的專家進(jìn)行合作。這些專家會(huì)提供有助于解決問(wèn)題的領(lǐng)域知識(shí),早期研究成果,更廣闊的視角,甚至可能是對(duì)該問(wèn)題的重新定義。與這些(往往可能很忙)專家建立聯(lián)系需要很強(qiáng)的人際交流技巧。
而這種交流對(duì)于數(shù)據(jù)科學(xué)項(xiàng)目的成功是必不可少的。在有充足數(shù)據(jù)來(lái)源的情況下,經(jīng)常發(fā)生情況的是在數(shù)據(jù)收集前要回答的問(wèn)題還沒(méi)有被精確定義。正如 Tukey 所說(shuō)的那樣:“我們?cè)?‘探索性數(shù)據(jù)分析(Exploratory Data Analysis)’的游戲中?!蔽覀儗ふ倚枰卮鸬膯?wèn)題,然后不斷重復(fù)統(tǒng)計(jì)調(diào)查過(guò)程(就像上文提到的 George Box 的文章中所述)。由于誤差的存在,我們謹(jǐn)慎的避免對(duì)于數(shù)據(jù)中出現(xiàn)的模式進(jìn)行過(guò)度擬合。例如,當(dāng)同一份數(shù)據(jù)既被用于問(wèn)題的建模又被用于問(wèn)題的驗(yàn)證時(shí),過(guò)度擬合就會(huì)發(fā)生。一條黃金準(zhǔn)則就是將數(shù)據(jù)分割,在分割時(shí)考慮到數(shù)據(jù)潛在的結(jié)構(gòu)(如相關(guān)性,聚類性,異質(zhì)性)使分割后的每部分?jǐn)?shù)據(jù)都對(duì)原始數(shù)據(jù)具有代表性。用其中一部分來(lái)探索問(wèn)題,而另一部分用來(lái)通過(guò)預(yù)測(cè)或者建模來(lái)回答問(wèn)題。
2.數(shù)據(jù)收集
實(shí)驗(yàn)設(shè)計(jì)(統(tǒng)計(jì)學(xué)的一個(gè)分支)和主動(dòng)學(xué)習(xí)(機(jī)器學(xué)習(xí)的一個(gè)分支)中的方法對(duì)解決這個(gè)問(wèn)題有所幫助。即使是在數(shù)據(jù)已經(jīng)收集好了以后,考慮這個(gè)問(wèn)題也是很有必要的。因?yàn)閷?duì)理想的數(shù)據(jù)收集機(jī)制的理解可以暴露出實(shí)際數(shù)據(jù)收集過(guò)程的缺陷,能夠指導(dǎo)下一步分析的方向。
下面的問(wèn)題會(huì)有所幫助:
數(shù)據(jù)是如何收集的? 在哪些地點(diǎn)?在什么時(shí)間段?誰(shuí)收集的?用什么設(shè)備收集的?中途操作人員和設(shè)備被更換過(guò)嗎?
總之,試著想象自己親身在數(shù)據(jù)收集現(xiàn)場(chǎng)。
3.數(shù)據(jù)含義
數(shù)據(jù)中的某個(gè)數(shù)值代表了什么含義?它測(cè)量了什么?它是否測(cè)量要測(cè)量的?哪些環(huán)節(jié)可能會(huì)出差錯(cuò)?在哪些統(tǒng)計(jì)假設(shè)下可以認(rèn)為數(shù)據(jù)收集沒(méi)有問(wèn)題?(對(duì)數(shù)據(jù)收集過(guò)程的詳細(xì)了解在這會(huì)很有幫助。)
4.相關(guān)性
收集來(lái)的數(shù)據(jù)能完全或部分地回答要研究的問(wèn)題嗎?如果不能,還需要收集什么其他數(shù)據(jù)?第2個(gè)問(wèn)題中提到的要點(diǎn)在此處同樣受用。
5.問(wèn)題轉(zhuǎn)化
如何將(1)中的問(wèn)題轉(zhuǎn)化成一個(gè)數(shù)據(jù)相關(guān)的統(tǒng)計(jì)問(wèn)題,使之能夠很好回答與原始問(wèn)題呢?有多種轉(zhuǎn)換方式嗎?比如,我們可以把問(wèn)題轉(zhuǎn)換成一個(gè)與統(tǒng)計(jì)模型有關(guān)的預(yù)測(cè)問(wèn)題或者統(tǒng)計(jì)推斷問(wèn)題嗎?在選擇模型前,列出將每一種能解決與實(shí)質(zhì)性問(wèn)題的轉(zhuǎn)化方式的優(yōu)點(diǎn)和缺點(diǎn)。
6.可比性
各數(shù)據(jù)單元是否是可比的,或經(jīng)過(guò)標(biāo)準(zhǔn)化處理而可視為可交換的?蘋果和橘子是否被組合在一起了?數(shù)據(jù)單元是否相互獨(dú)立?兩列數(shù)據(jù)是不是同一個(gè)變量的副本?
7.可視化
觀察數(shù)據(jù)(或其子集),制作一維或二維圖表,并檢驗(yàn)這些的數(shù)據(jù)的統(tǒng)計(jì)量。詢問(wèn)數(shù)據(jù)范圍是什么?數(shù)據(jù)正常嗎?是否有缺失值?多使用顏色和動(dòng)態(tài)圖,注意有意料之外的情況記住,我們大腦皮層的30%都是用來(lái)處理圖像的,所以可視化在挖掘數(shù)據(jù)模式和特殊情況時(shí)非常有效。通常情況,為了找到大數(shù)據(jù)的模式,可視化在建立某些模型之后使用最有用,比如,計(jì)算殘差并進(jìn)行可視化展示。
8.隨機(jī)性
統(tǒng)計(jì)推斷的概念,比如p值和置信區(qū)間,都依賴于隨機(jī)性。那數(shù)據(jù)中的隨機(jī)性是什么含義呢?我們要對(duì)統(tǒng)計(jì)模型的隨機(jī)性盡量明確地定義。哪些所研究的領(lǐng)域中知識(shí)支持所用統(tǒng)計(jì)模型中的隨機(jī)性的描述?一個(gè)表現(xiàn)統(tǒng)計(jì)模型中隨機(jī)性的最好例子,就是因果關(guān)系分析中 Neyman-Rubin 的隨機(jī)分組原理(在AB檢驗(yàn)中也有使用)。
9.穩(wěn)定性
你會(huì)使用哪些現(xiàn)有的方法?不同的方法會(huì)得出同一個(gè)定性的結(jié)論嗎?對(duì)數(shù)據(jù)進(jìn)行隨機(jī)擾動(dòng),例如,可以通過(guò)添加噪聲或二次抽樣實(shí)現(xiàn)(一般來(lái)說(shuō),應(yīng)確定二層樣本有原樣本的結(jié)構(gòu),如相關(guān)性,聚類特性和異質(zhì)性,這樣二層樣本能較好地代表原始數(shù)據(jù))。結(jié)論依然成立嗎?我們應(yīng)該只相信那些能通過(guò)穩(wěn)定性檢驗(yàn)的方法,穩(wěn)定性檢驗(yàn)簡(jiǎn)單易行,能夠抗過(guò)度擬合和過(guò)多假陽(yáng)性發(fā)現(xiàn),具有可重復(fù)性(要了解關(guān)于穩(wěn)定性重要程度的更多信息,請(qǐng)參看文章)。
可重復(fù)性研究最近在科學(xué)界中吸引了很多注意,請(qǐng)參照《Nature》特刊?!禨cience》的主編 Marcia McNutt 指出“實(shí)驗(yàn)再現(xiàn)是科學(xué)家用以增加結(jié)論信度的一種重要方法”。同樣,商業(yè)和政府實(shí)體也應(yīng)該要求從數(shù)據(jù)分析中得出的結(jié)論,當(dāng)用新的同質(zhì)數(shù)據(jù)檢驗(yàn)時(shí)是可再重復(fù)的。
10.結(jié)果驗(yàn)證
人們?cè)鯓幽苤罃?shù)據(jù)分析是不是做的好呢?衡量標(biāo)準(zhǔn)是什么?可以考慮用其他類型的數(shù)據(jù)或者先驗(yàn)知識(shí)來(lái)衡量有效性,不過(guò)可能需要收集新的數(shù)據(jù)以確認(rèn)結(jié)果的有效程度。
在數(shù)據(jù)分析時(shí)還有許多其他問(wèn)題要考慮,但我希望上面的這些問(wèn)題能使你對(duì)如何獲取“數(shù)據(jù)智慧”產(chǎn)生一點(diǎn)感覺(jué)。作為一個(gè)統(tǒng)計(jì)學(xué)家,這些問(wèn)題的答案需要在統(tǒng)計(jì)學(xué)之外獲取。要找到可靠的答案,有效的信息源包括“死的”(如科學(xué)文獻(xiàn)、報(bào)告和書籍)和“活的”(如人)。出色的人際交流技能使得尋找正確信息源的過(guò)程簡(jiǎn)單了許多,即使是在尋求“死的”信息源的過(guò)程中也是這樣。因此,為了獲取充足的信息,人際交流技能將更加重要,因?yàn)樵谖业慕?jīng)驗(yàn)中,知識(shí)淵博的人通常是你最好的指路。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }