99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)科學(xué)的七種常見錯誤丨轉(zhuǎn)行,你適合數(shù)據(jù)科學(xué)嗎
數(shù)據(jù)科學(xué)的七種常見錯誤丨轉(zhuǎn)行,你適合數(shù)據(jù)科學(xué)嗎
2017-06-06
收藏

數(shù)據(jù)科學(xué)的七種常見錯誤丨轉(zhuǎn)行,你適合數(shù)據(jù)科學(xué)嗎

商業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家其實和偵探有著異曲同工之處,就是要去探索未知。不過在這過程中可能一不小心就會墜入“陷阱”,所以這就需要去了解和避免這些“陷阱”。

愛爾蘭小說家James Joyce 提到過 “錯誤是探索的入口”,這句話在大部分情況下這是無可厚非的。

對于數(shù)據(jù)科學(xué)家而言,犯錯可以幫他們發(fā)現(xiàn)新的數(shù)據(jù)趨勢和找到更多數(shù)據(jù)模式。話雖如此,對于數(shù)據(jù)科學(xué)家而言,允許的誤差范圍往往非常小。數(shù)據(jù)科學(xué)家是通過大量考察才被高薪聘請的,而企業(yè)也擔(dān)不起由于忽略失敗案例和重復(fù)犯錯所產(chǎn)生的嚴(yán)重后果。因此,這些錯誤有可能會毀掉一個數(shù)據(jù)科學(xué)家的職業(yè)生涯。因此對數(shù)據(jù)科學(xué)家來說,追蹤所有數(shù)據(jù)實驗、從錯誤中吸取經(jīng)驗教訓(xùn)、以及避免在未來的項目中出錯是至關(guān)重要的。

夏洛克·福爾摩斯以下的這句話很好的詮釋了數(shù)據(jù)科學(xué)家在商業(yè)領(lǐng)域中扮演的角色:

“我是夏洛克·福爾摩斯,去了解別人不知道的事是我的使命”

而對于企業(yè)而言,如果想在商業(yè)中保持競爭力,并不僅僅要依靠大數(shù)據(jù)分析。如果不事先評估數(shù)據(jù)質(zhì)量以及他們希望達到的目標(biāo)和利潤,就很難判斷出哪個數(shù)據(jù)分析項目會帶來盈利。出現(xiàn)第一次失誤是可以接受的,但反復(fù)地在同一個地方摔倒,就會造成商業(yè)運營中的重大損失。

應(yīng)用Python語言去學(xué)習(xí)數(shù)據(jù)科學(xué),并成為企業(yè)數(shù)據(jù)科學(xué)家

以下來分享該如何避免常見的數(shù)據(jù)科學(xué)錯誤:

錯誤 1:因果關(guān)系和相關(guān)性的概念混淆

對于任何數(shù)據(jù)科學(xué)家而言,把相關(guān)性和因果性混淆都會造成損失。《魔鬼經(jīng)濟學(xué)》里提到了伊利諾伊州的一個案例,由于分析顯示每個家庭的書籍?dāng)?shù)量和學(xué)生考試分?jǐn)?shù)有直接聯(lián)系,導(dǎo)致了伊利諾伊州給每個學(xué)生都發(fā)了書。而進一步的研究顯示,家里有書的學(xué)生可能從未翻閱過這些書,但他們的學(xué)術(shù)水平表現(xiàn)的更為優(yōu)秀。因為那些經(jīng)常買書的父母更能提供給孩子更加好的學(xué)習(xí)氛圍,而這個觀點則是在原來的假設(shè)上做了修正。

大量數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時會假設(shè)相關(guān)性,直接映射因果關(guān)系。雖然用數(shù)據(jù)來衡量兩個變量之間的相關(guān)性沒錯,但是總用“起因和影響”來類推,可能會導(dǎo)致錯誤的預(yù)測和低效的決定。為了利用大數(shù)據(jù)去呈現(xiàn)最好的結(jié)果,數(shù)據(jù)科學(xué)家需要去弄清相關(guān)性和因果本質(zhì)區(qū)別。相關(guān)性是指X與Y通常會被放在一起觀察,而因果關(guān)系是指X引起了Y。這在數(shù)據(jù)科學(xué)中是完全兩種不同的概念,但這些差別經(jīng)常被數(shù)據(jù)科學(xué)家忽視。在不知道起因的情況下,僅根據(jù)相關(guān)性所作出的決定的成效,完全取決于企業(yè)的數(shù)據(jù)類型和想解決的問題。

每個數(shù)據(jù)科學(xué)家必須明白:“在數(shù)據(jù)科學(xué)中,相關(guān)性不代表因果關(guān)系”,如果兩個事物互相關(guān)聯(lián),這不代表一個是由另一個引起的。

錯誤 2:沒有選擇適合的可視化工具

大部分?jǐn)?shù)據(jù)科學(xué)家都致力于學(xué)習(xí)分析技術(shù),但忽略了用可視化路徑去更好地展現(xiàn)和分析數(shù)據(jù)的方式。如果數(shù)據(jù)科學(xué)家沒有選擇合適的可視化工具去研發(fā)模型、監(jiān)控未知數(shù)據(jù)或展現(xiàn)結(jié)果,那么再好的機器學(xué)習(xí)模型,價值也會因此被削弱。

另外一個常見的誤區(qū)就是,很多數(shù)據(jù)科學(xué)家選擇可視化圖表類型不是基于數(shù)據(jù)集的特征,而是他們自身的審美愛好。為了避免這種情況,第一步就是要定下可視化主要目的。

僅僅一個優(yōu)秀的機器學(xué)習(xí)模型并不能立刻分享和傳達重要的數(shù)據(jù)信息。數(shù)據(jù)科學(xué)家需要結(jié)合有效的可視化工具來解釋數(shù)據(jù)規(guī)律以應(yīng)用到實際工作中。常言道“一圖勝千言”,數(shù)據(jù)科學(xué)家不僅要熟練運用可視化工具,并且還要了解其中的原理,用更直觀和易于理解的方式,對數(shù)據(jù)分析的結(jié)果進行分享和溝通。

因此,解決任何數(shù)據(jù)科學(xué)問題的關(guān)鍵一步就是深入了解數(shù)據(jù),通過豐富直觀的可視化,了解分析的基礎(chǔ)和搭建相應(yīng)的模型。

錯誤 3:沒有選擇合適的模型驗證頻率

有部分?jǐn)?shù)據(jù)科學(xué)家認(rèn)為,建立出優(yōu)秀的機器學(xué)習(xí)模型之后就勝券在握了,但實際上,確保模型能夠維持相應(yīng)的預(yù)測能力也相當(dāng)重要。所以這需要數(shù)據(jù)科學(xué)家在一定時間內(nèi),反復(fù)驗證自己的模型。而這一點往往很容易被忽略。他們習(xí)慣性地認(rèn)為,如果預(yù)測模型和觀測數(shù)據(jù)相吻合,該預(yù)測模型就是理想的。

然而,已建立的模型的預(yù)測效果,往往會隨模型關(guān)系不斷變化而改變。因此,為了避免這種情況,最好的解決方法是:每個小時都用新數(shù)據(jù)對模型進行評分,或者基于模型中的關(guān)系變化快慢逐日逐月評分。

由于不同因素影響,模型的預(yù)測能力往往會變?nèi)?,因此?shù)據(jù)科學(xué)家需要確定一個常數(shù),用以確保模型的預(yù)測能力不能低于可接受的水平。實際工作中,數(shù)據(jù)科學(xué)家有時需要重建數(shù)據(jù)模型。而且通過多個數(shù)據(jù)模型來解釋變量的分布要遠(yuǎn)優(yōu)于依靠單個模型。

同時,為了保留模型的預(yù)測效果和有效性,選擇迭代周期是非常重要的,如果無法做這點,那最后結(jié)果也會差強人意。

錯誤 4:缺少對問題或計劃的分析

數(shù)據(jù)科學(xué)協(xié)會主席Michael Walker提出:“在數(shù)據(jù)科學(xué)中,最極致的方法之一就是設(shè)計實驗、根據(jù)科學(xué)的標(biāo)準(zhǔn)去提出好的問題、收集合適的數(shù)據(jù)集、收集并解釋你所得到的結(jié)果。”

數(shù)據(jù)科學(xué)是一個結(jié)構(gòu)化的過程,以明確的目標(biāo)和問題為始,隨后提出假設(shè),最終找到答案。然而,數(shù)據(jù)科學(xué)家有時會直接分析數(shù)據(jù),而沒有事先考慮,“我需要去解決一個什么樣的問題?”對于任何數(shù)據(jù)科學(xué)家來說,設(shè)定一個項目目標(biāo)和模型目標(biāo)都是必不可少的。如果不知道自己想要解決什么問題,那最后結(jié)果往往也是不盡如意。

很多數(shù)據(jù)科學(xué)項目最終是為了回答“是什么”的問題,因為數(shù)據(jù)科學(xué)家無法時刻攢問題在手,所以也無法根據(jù)這種理想的路徑進行數(shù)據(jù)分析。然而,數(shù)據(jù)科學(xué)應(yīng)該是利用大數(shù)據(jù)去回答“為什么”的問題。數(shù)據(jù)科學(xué)家應(yīng)該采用新的方式去整合已知的數(shù)據(jù)集,去探討一個未曾有過答案的問題。為了改善現(xiàn)狀,數(shù)據(jù)科學(xué)家應(yīng)該關(guān)注在:“如何獲得正確的分析結(jié)果?!边@可以通過明確的實驗設(shè)計,變量和數(shù)據(jù)準(zhǔn)確性,并且清晰明白他們想在數(shù)據(jù)中獲取什么信息。這也將簡化以往通過滿足假設(shè)的統(tǒng)計方法來回答商業(yè)問題的過程。就像Voltaire說的那樣,“判斷一個人,是通過他提出的問題,而不是他所給的答案。”這對于任何企業(yè)來說,首先明確好研究問題對于達到研究目標(biāo)是至關(guān)重要的。

錯誤5:僅僅關(guān)注于數(shù)據(jù)

博思艾倫咨詢公司的首席數(shù)據(jù)科學(xué)家Kirk Borne曾說過,“人們往往忽略了關(guān)于數(shù)據(jù)使用、數(shù)據(jù)保護、還有統(tǒng)計方面的倫理問題。再者,人們忽略了如果用足夠長的時間去處理數(shù)據(jù),便可以從中挖掘很多信息。如果能收集大量數(shù)據(jù),便會發(fā)現(xiàn)其中的關(guān)聯(lián)性。現(xiàn)在人們認(rèn)為如果他們擁有大數(shù)據(jù),他們會相信他們所看到的任何事情。”

數(shù)據(jù)科學(xué)家經(jīng)常會對來自多個數(shù)據(jù)源的數(shù)據(jù)感到興奮,然后在沒有考慮加強商業(yè)意識的情況下,開始創(chuàng)建圖表和可視化處理來做分析報告。這種行為能把任何企業(yè)推向危險邊緣。數(shù)據(jù)科學(xué)家通常賦予數(shù)據(jù)太多決策權(quán)力,但他們不夠重視培養(yǎng)自己的商業(yè)意識,不夠了解如何才能使企業(yè)受益。數(shù)據(jù)科學(xué)家不僅僅要只讓數(shù)據(jù)說話,而且還要善用自己的智慧和商業(yè)意識。數(shù)據(jù)是可以影響項目的決策,但絕不是判定決定權(quán)的最終因素。企業(yè)可以聘請那些能把各領(lǐng)域知識和專業(yè)技術(shù)相結(jié)合的數(shù)據(jù)科學(xué)家,這也是為了避免此類錯誤的解決方案。

錯誤 6:忽略可能性

有時候,數(shù)據(jù)科學(xué)家往往會忽略了方案的可能性,更容易導(dǎo)致失敗的決策。數(shù)據(jù)科學(xué)家常常犯一些主觀性錯誤,比如他們認(rèn)為,企業(yè)采取了X操作就一定會實現(xiàn)Y目標(biāo)。然而,某些特定問題是沒有唯一答案的,因此數(shù)據(jù)科學(xué)家要理解,從不同可能性中所做的選擇。某些特定問題都存在一個以上的可能性,而其中每種都有一定程度的不確定性。情景規(guī)劃和概率理論是數(shù)據(jù)科學(xué)兩個不可忽視的基本核心,它們可以加大決策正確性的概率。

錯誤 7:在一個錯誤的測量總體上建立模型

如果某個項目的目標(biāo)是建立一個影響客戶選擇因素的模型,那么,僅僅考慮高影響力客戶行為的數(shù)據(jù)并不完善。該模型還需要考慮到那些影響雖然不大,但卻具有潛在影響力的客戶的行為數(shù)據(jù)。低估任何一組的預(yù)測能力都可能導(dǎo)致模型歪斜或者一些重要變量被弱化。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }