
數(shù)據(jù)科學(xué)的七種常見錯誤丨轉(zhuǎn)行,你適合數(shù)據(jù)科學(xué)嗎
商業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家其實和偵探有著異曲同工之處,就是要去探索未知。不過在這過程中可能一不小心就會墜入“陷阱”,所以這就需要去了解和避免這些“陷阱”。
愛爾蘭小說家James Joyce 提到過 “錯誤是探索的入口”,這句話在大部分情況下這是無可厚非的。
對于數(shù)據(jù)科學(xué)家而言,犯錯可以幫他們發(fā)現(xiàn)新的數(shù)據(jù)趨勢和找到更多數(shù)據(jù)模式。話雖如此,對于數(shù)據(jù)科學(xué)家而言,允許的誤差范圍往往非常小。數(shù)據(jù)科學(xué)家是通過大量考察才被高薪聘請的,而企業(yè)也擔(dān)不起由于忽略失敗案例和重復(fù)犯錯所產(chǎn)生的嚴(yán)重后果。因此,這些錯誤有可能會毀掉一個數(shù)據(jù)科學(xué)家的職業(yè)生涯。因此對數(shù)據(jù)科學(xué)家來說,追蹤所有數(shù)據(jù)實驗、從錯誤中吸取經(jīng)驗教訓(xùn)、以及避免在未來的項目中出錯是至關(guān)重要的。
夏洛克·福爾摩斯以下的這句話很好的詮釋了數(shù)據(jù)科學(xué)家在商業(yè)領(lǐng)域中扮演的角色:
“我是夏洛克·福爾摩斯,去了解別人不知道的事是我的使命”
而對于企業(yè)而言,如果想在商業(yè)中保持競爭力,并不僅僅要依靠大數(shù)據(jù)分析。如果不事先評估數(shù)據(jù)質(zhì)量以及他們希望達到的目標(biāo)和利潤,就很難判斷出哪個數(shù)據(jù)分析項目會帶來盈利。出現(xiàn)第一次失誤是可以接受的,但反復(fù)地在同一個地方摔倒,就會造成商業(yè)運營中的重大損失。
應(yīng)用Python語言去學(xué)習(xí)數(shù)據(jù)科學(xué),并成為企業(yè)數(shù)據(jù)科學(xué)家
以下來分享該如何避免常見的數(shù)據(jù)科學(xué)錯誤:
錯誤 1:因果關(guān)系和相關(guān)性的概念混淆
對于任何數(shù)據(jù)科學(xué)家而言,把相關(guān)性和因果性混淆都會造成損失。《魔鬼經(jīng)濟學(xué)》里提到了伊利諾伊州的一個案例,由于分析顯示每個家庭的書籍?dāng)?shù)量和學(xué)生考試分?jǐn)?shù)有直接聯(lián)系,導(dǎo)致了伊利諾伊州給每個學(xué)生都發(fā)了書。而進一步的研究顯示,家里有書的學(xué)生可能從未翻閱過這些書,但他們的學(xué)術(shù)水平表現(xiàn)的更為優(yōu)秀。因為那些經(jīng)常買書的父母更能提供給孩子更加好的學(xué)習(xí)氛圍,而這個觀點則是在原來的假設(shè)上做了修正。
大量數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時會假設(shè)相關(guān)性,直接映射因果關(guān)系。雖然用數(shù)據(jù)來衡量兩個變量之間的相關(guān)性沒錯,但是總用“起因和影響”來類推,可能會導(dǎo)致錯誤的預(yù)測和低效的決定。為了利用大數(shù)據(jù)去呈現(xiàn)最好的結(jié)果,數(shù)據(jù)科學(xué)家需要去弄清相關(guān)性和因果本質(zhì)區(qū)別。相關(guān)性是指X與Y通常會被放在一起觀察,而因果關(guān)系是指X引起了Y。這在數(shù)據(jù)科學(xué)中是完全兩種不同的概念,但這些差別經(jīng)常被數(shù)據(jù)科學(xué)家忽視。在不知道起因的情況下,僅根據(jù)相關(guān)性所作出的決定的成效,完全取決于企業(yè)的數(shù)據(jù)類型和想解決的問題。
每個數(shù)據(jù)科學(xué)家必須明白:“在數(shù)據(jù)科學(xué)中,相關(guān)性不代表因果關(guān)系”,如果兩個事物互相關(guān)聯(lián),這不代表一個是由另一個引起的。
錯誤 2:沒有選擇適合的可視化工具
大部分?jǐn)?shù)據(jù)科學(xué)家都致力于學(xué)習(xí)分析技術(shù),但忽略了用可視化路徑去更好地展現(xiàn)和分析數(shù)據(jù)的方式。如果數(shù)據(jù)科學(xué)家沒有選擇合適的可視化工具去研發(fā)模型、監(jiān)控未知數(shù)據(jù)或展現(xiàn)結(jié)果,那么再好的機器學(xué)習(xí)模型,價值也會因此被削弱。
另外一個常見的誤區(qū)就是,很多數(shù)據(jù)科學(xué)家選擇可視化圖表類型不是基于數(shù)據(jù)集的特征,而是他們自身的審美愛好。為了避免這種情況,第一步就是要定下可視化主要目的。
僅僅一個優(yōu)秀的機器學(xué)習(xí)模型并不能立刻分享和傳達重要的數(shù)據(jù)信息。數(shù)據(jù)科學(xué)家需要結(jié)合有效的可視化工具來解釋數(shù)據(jù)規(guī)律以應(yīng)用到實際工作中。常言道“一圖勝千言”,數(shù)據(jù)科學(xué)家不僅要熟練運用可視化工具,并且還要了解其中的原理,用更直觀和易于理解的方式,對數(shù)據(jù)分析的結(jié)果進行分享和溝通。
因此,解決任何數(shù)據(jù)科學(xué)問題的關(guān)鍵一步就是深入了解數(shù)據(jù),通過豐富直觀的可視化,了解分析的基礎(chǔ)和搭建相應(yīng)的模型。
錯誤 3:沒有選擇合適的模型驗證頻率
有部分?jǐn)?shù)據(jù)科學(xué)家認(rèn)為,建立出優(yōu)秀的機器學(xué)習(xí)模型之后就勝券在握了,但實際上,確保模型能夠維持相應(yīng)的預(yù)測能力也相當(dāng)重要。所以這需要數(shù)據(jù)科學(xué)家在一定時間內(nèi),反復(fù)驗證自己的模型。而這一點往往很容易被忽略。他們習(xí)慣性地認(rèn)為,如果預(yù)測模型和觀測數(shù)據(jù)相吻合,該預(yù)測模型就是理想的。
然而,已建立的模型的預(yù)測效果,往往會隨模型關(guān)系不斷變化而改變。因此,為了避免這種情況,最好的解決方法是:每個小時都用新數(shù)據(jù)對模型進行評分,或者基于模型中的關(guān)系變化快慢逐日逐月評分。
由于不同因素影響,模型的預(yù)測能力往往會變?nèi)?,因此?shù)據(jù)科學(xué)家需要確定一個常數(shù),用以確保模型的預(yù)測能力不能低于可接受的水平。實際工作中,數(shù)據(jù)科學(xué)家有時需要重建數(shù)據(jù)模型。而且通過多個數(shù)據(jù)模型來解釋變量的分布要遠(yuǎn)優(yōu)于依靠單個模型。
同時,為了保留模型的預(yù)測效果和有效性,選擇迭代周期是非常重要的,如果無法做這點,那最后結(jié)果也會差強人意。
錯誤 4:缺少對問題或計劃的分析
數(shù)據(jù)科學(xué)協(xié)會主席Michael Walker提出:“在數(shù)據(jù)科學(xué)中,最極致的方法之一就是設(shè)計實驗、根據(jù)科學(xué)的標(biāo)準(zhǔn)去提出好的問題、收集合適的數(shù)據(jù)集、收集并解釋你所得到的結(jié)果。”
數(shù)據(jù)科學(xué)是一個結(jié)構(gòu)化的過程,以明確的目標(biāo)和問題為始,隨后提出假設(shè),最終找到答案。然而,數(shù)據(jù)科學(xué)家有時會直接分析數(shù)據(jù),而沒有事先考慮,“我需要去解決一個什么樣的問題?”對于任何數(shù)據(jù)科學(xué)家來說,設(shè)定一個項目目標(biāo)和模型目標(biāo)都是必不可少的。如果不知道自己想要解決什么問題,那最后結(jié)果往往也是不盡如意。
很多數(shù)據(jù)科學(xué)項目最終是為了回答“是什么”的問題,因為數(shù)據(jù)科學(xué)家無法時刻攢問題在手,所以也無法根據(jù)這種理想的路徑進行數(shù)據(jù)分析。然而,數(shù)據(jù)科學(xué)應(yīng)該是利用大數(shù)據(jù)去回答“為什么”的問題。數(shù)據(jù)科學(xué)家應(yīng)該采用新的方式去整合已知的數(shù)據(jù)集,去探討一個未曾有過答案的問題。為了改善現(xiàn)狀,數(shù)據(jù)科學(xué)家應(yīng)該關(guān)注在:“如何獲得正確的分析結(jié)果?!边@可以通過明確的實驗設(shè)計,變量和數(shù)據(jù)準(zhǔn)確性,并且清晰明白他們想在數(shù)據(jù)中獲取什么信息。這也將簡化以往通過滿足假設(shè)的統(tǒng)計方法來回答商業(yè)問題的過程。就像Voltaire說的那樣,“判斷一個人,是通過他提出的問題,而不是他所給的答案。”這對于任何企業(yè)來說,首先明確好研究問題對于達到研究目標(biāo)是至關(guān)重要的。
錯誤5:僅僅關(guān)注于數(shù)據(jù)
博思艾倫咨詢公司的首席數(shù)據(jù)科學(xué)家Kirk Borne曾說過,“人們往往忽略了關(guān)于數(shù)據(jù)使用、數(shù)據(jù)保護、還有統(tǒng)計方面的倫理問題。再者,人們忽略了如果用足夠長的時間去處理數(shù)據(jù),便可以從中挖掘很多信息。如果能收集大量數(shù)據(jù),便會發(fā)現(xiàn)其中的關(guān)聯(lián)性。現(xiàn)在人們認(rèn)為如果他們擁有大數(shù)據(jù),他們會相信他們所看到的任何事情。”
數(shù)據(jù)科學(xué)家經(jīng)常會對來自多個數(shù)據(jù)源的數(shù)據(jù)感到興奮,然后在沒有考慮加強商業(yè)意識的情況下,開始創(chuàng)建圖表和可視化處理來做分析報告。這種行為能把任何企業(yè)推向危險邊緣。數(shù)據(jù)科學(xué)家通常賦予數(shù)據(jù)太多決策權(quán)力,但他們不夠重視培養(yǎng)自己的商業(yè)意識,不夠了解如何才能使企業(yè)受益。數(shù)據(jù)科學(xué)家不僅僅要只讓數(shù)據(jù)說話,而且還要善用自己的智慧和商業(yè)意識。數(shù)據(jù)是可以影響項目的決策,但絕不是判定決定權(quán)的最終因素。企業(yè)可以聘請那些能把各領(lǐng)域知識和專業(yè)技術(shù)相結(jié)合的數(shù)據(jù)科學(xué)家,這也是為了避免此類錯誤的解決方案。
錯誤 6:忽略可能性
有時候,數(shù)據(jù)科學(xué)家往往會忽略了方案的可能性,更容易導(dǎo)致失敗的決策。數(shù)據(jù)科學(xué)家常常犯一些主觀性錯誤,比如他們認(rèn)為,企業(yè)采取了X操作就一定會實現(xiàn)Y目標(biāo)。然而,某些特定問題是沒有唯一答案的,因此數(shù)據(jù)科學(xué)家要理解,從不同可能性中所做的選擇。某些特定問題都存在一個以上的可能性,而其中每種都有一定程度的不確定性。情景規(guī)劃和概率理論是數(shù)據(jù)科學(xué)兩個不可忽視的基本核心,它們可以加大決策正確性的概率。
錯誤 7:在一個錯誤的測量總體上建立模型
如果某個項目的目標(biāo)是建立一個影響客戶選擇因素的模型,那么,僅僅考慮高影響力客戶行為的數(shù)據(jù)并不完善。該模型還需要考慮到那些影響雖然不大,但卻具有潛在影響力的客戶的行為數(shù)據(jù)。低估任何一組的預(yù)測能力都可能導(dǎo)致模型歪斜或者一些重要變量被弱化。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03