
作者李·貝克,Chi-Squared Innovations的聯(lián)合創(chuàng)始人兼首席執(zhí)行官。
這些年來,我經(jīng)常被初學(xué)者問到,他們應(yīng)該從哪里開始統(tǒng)計,他們應(yīng)該首先做什么,他們應(yīng)該優(yōu)先考慮統(tǒng)計的哪些部分,以使他們達(dá)到他們想要的地方(這通常是一個高薪的工作)。
現(xiàn)在,由于我?guī)缀跬耆亲詫W(xué)成才,我并不真的認(rèn)為自己是一個人應(yīng)該從哪里開始的權(quán)威,我很難用任何堅定的信念來回答這個問題。
當(dāng)然,我對這個問題有一些想法,但這些想法是由我自己的經(jīng)歷決定的。
所以我想我應(yīng)該聯(lián)系一下我們的一些統(tǒng)計學(xué)朋友,看看他們能給派對帶來什么。
這篇文章中的每個統(tǒng)計人員都被問到了同樣的問題:
答案令人震驚--結(jié)果是如何從零開始成為一名現(xiàn)代統(tǒng)計學(xué)家的路線圖。
簡而言之,如何成為一名未來的統(tǒng)計學(xué)家而不需要任何一節(jié)課!
統(tǒng)計上存在分歧。一方面,你有那些在統(tǒng)計理論方面受過正規(guī)教育的人,另一方面,那些在實踐中學(xué)習(xí)的人。如果你像我一樣,你會是一個完全自學(xué)成才的統(tǒng)計學(xué)家,他渴望地看著另一邊甜美的綠草,希望我得到了適當(dāng)?shù)慕逃?,這樣我就不會犯那么多愚蠢的錯誤。
但其他統(tǒng)計學(xué)家對此怎么看?
杰奎琳·諾里斯和我有相同的道路,但她和我的感覺不一樣。Jacqueline(@skyetetra)是一名數(shù)據(jù)科學(xué)顧問,也是《在數(shù)據(jù)科學(xué)中建立職業(yè)生涯》一書的作者之一,她告訴我,她從未接受過正規(guī)的統(tǒng)計學(xué)教育,而是學(xué)會了工作中需要的一切:
“如果我必須重新開始,我會做和第一次一樣的事情!我的背景是應(yīng)用數(shù)學(xué),所以我只在學(xué)術(shù)界上了一門統(tǒng)計學(xué)課程。統(tǒng)計方面的在職教育對我很有幫助,我認(rèn)識的那些有更嚴(yán)格統(tǒng)計背景的人似乎沒有用到他們學(xué)到的很多東西。任何時候,我需要一些像不尋常的統(tǒng)計方法,我都可以自己閱讀和學(xué)習(xí)它。作為一名數(shù)據(jù)科學(xué)家,你需要對數(shù)據(jù)進(jìn)行更廣泛的理性思考,這種思考可能來自許多領(lǐng)域,而不僅僅是統(tǒng)計學(xué)。對我來說,這是數(shù)學(xué),但我見過許多人從許多背景中獲得它。“
我對我從有限的統(tǒng)計教育中獲得的職業(yè)生涯非常滿意--如果我重新開始,我會害怕踩到統(tǒng)計蝴蝶,害怕改變時間表,以至于我最終成為一名用戶體驗設(shè)計師什么的。“
另一方面,你有數(shù)據(jù)移動我(@datamovesher)的克里斯汀·凱爾,他受過正規(guī)的統(tǒng)計學(xué)教育。她告訴我:
“我在本科階段學(xué)習(xí)的大部分概率和統(tǒng)計都是理論上的。如果我必須重新開始,我會在本科階段學(xué)習(xí)更實用的統(tǒng)計課程。但即使我從頭開始學(xué)習(xí),我也不會改變我在這個主題上攻讀正式學(xué)位的決定?!?
有趣的是,Chatroulette(@lisachwinter)的高級產(chǎn)品研究員麗莎-克里斯蒂娜·溫特(Lisa-Christina Winter)給我的建議恰恰相反:
“我會從統(tǒng)計理論開始--通過理解基本概念和它們的重要性。為了把它放在一個易于理解的框架中,我會在簡單的實驗設(shè)計的背景下研究理論?!?
那么為什么統(tǒng)計學(xué)的理論基礎(chǔ)對你來說很重要呢?
“雖然我在第一次學(xué)習(xí)統(tǒng)計學(xué)的時候并不欣賞,但我現(xiàn)在看到了通過使用公式書和分布表手工解決統(tǒng)計問題有多重要?,F(xiàn)在和某人一起工作時,很快就會非常清楚,更深入的統(tǒng)計理解是超級重要的?!?
怎么會呢?
“在忙于應(yīng)用統(tǒng)計數(shù)據(jù)之前,先瀏覽大量理論統(tǒng)計數(shù)據(jù),這讓我遠(yuǎn)離了大量錯誤,而這些錯誤是我通過簡單地編寫語法永遠(yuǎn)不會意識到的。”
為商科學(xué)生創(chuàng)建數(shù)據(jù)科學(xué)課程的馬特·丹喬(@mdancho84)有一些關(guān)于學(xué)習(xí)統(tǒng)計的建議可以分享,他告訴我:
“我會做盡可能多的項目--構(gòu)建產(chǎn)品是你學(xué)習(xí)的方式。當(dāng)你遇到錯誤時,排除故障,創(chuàng)建,學(xué)習(xí)。這是一種可以直接轉(zhuǎn)移到你的業(yè)務(wù)中的技能?!?
他還告訴所有那些告訴我們?nèi)绾螌W(xué)會多任務(wù)處理的人(我相信你們都知道一位大學(xué)講師告訴你們要學(xué)會這一點(diǎn)):
“我會專注于一個學(xué)習(xí)目標(biāo)--這很容易分心。這會讓你花費(fèi)數(shù)年時間。相反,專注于一個項目或一個學(xué)習(xí)目標(biāo)。不是你聽到的每一項新技術(shù)。這會扼殺你的生產(chǎn)力。專注對學(xué)習(xí)至關(guān)重要?!?
OpenIntro團(tuán)隊(@Minebocek)的米恩·切廷卡亞-倫德爾也建議遵循應(yīng)用的統(tǒng)計路線:
“我從傳統(tǒng)的統(tǒng)計學(xué)入門課程開始學(xué)習(xí)統(tǒng)計學(xué),讓我們記住一些公式,但并不真正接觸數(shù)據(jù)。在第一堂課之后,我花了一段時間才把這些東西放在一起,理解(并愛上!)整個數(shù)據(jù)分析周期。”
那么如果她不得不重新開始統(tǒng)計數(shù)據(jù),她會怎么做?
“如果我重新開始,我很樂意在可以處理數(shù)據(jù)的地方開始學(xué)習(xí)統(tǒng)計學(xué),進(jìn)行實際數(shù)據(jù)分析(用R!),并專注于如何提出正確的問題,以及如何開始在真實、復(fù)雜的數(shù)據(jù)集中尋找這些問題的答案。”
Garrett Grolemund在他給統(tǒng)計學(xué)新手的建議的第三部分的第二部分(看,我告訴過你我們會再收到他的信,不是嗎?)說如果他有機(jī)會重新開始統(tǒng)計:
“我會認(rèn)真思考隨機(jī)性到底是什么。統(tǒng)計學(xué)是這些東西的應(yīng)用版本,但我們太快就直接跳到數(shù)學(xué)/計算上了。”
所以我們有了。十分之九cats統(tǒng)計學(xué)家更喜歡應(yīng)用統(tǒng)計學(xué)!因此,下次當(dāng)你為自己沒有理論背景而分析數(shù)據(jù)而感到遺憾時,請記住,你正在遵循許多受過正式培訓(xùn)的統(tǒng)計學(xué)家如果有時間的話會走的道路。如果對他們來說足夠好,你知道剩下的...
在統(tǒng)計學(xué)中有一個分裂,那就是頻率論者和貝葉斯論者之間的分裂。
讓我們看看統(tǒng)計學(xué)家對這場辯論有什么看法。
我們從柯克·伯恩(@kirkdborne),天體物理學(xué)家和火箭科學(xué)家(嗯,火箭數(shù)據(jù)科學(xué)家)開始。令人驚訝的是,他告訴我他對當(dāng)宇航員從來沒有任何興趣!
“我不是統(tǒng)計學(xué)家,也沒有上過一門統(tǒng)計學(xué)課程,盡管我在大學(xué)里教過。這怎么可能?”
有趣的是,這對我來說也是一樣的!他從哪里得到所有的數(shù)據(jù)?
“我在本科物理中學(xué)到了基本的統(tǒng)計學(xué),然后在研究生院及以后,我作為天體物理學(xué)家做了多年的數(shù)據(jù)分析,學(xué)到了更多。大約22年前,當(dāng)我開始探索數(shù)據(jù)挖掘、統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)時,我學(xué)到了更多的統(tǒng)計學(xué)。從那以后,我就沒有停止學(xué)習(xí)統(tǒng)計學(xué)?!?
這聽起來有點(diǎn)像我的統(tǒng)計教育。你所需要做的就是從天體物理學(xué)中去掉“Astro”,它們是完全相同的!那么他對重新開始統(tǒng)計數(shù)據(jù)有什么看法?
“我會從貝葉斯推理開始,而不是把早年的所有時間都投入到簡單的描述性數(shù)據(jù)分析中。這會讓我更早地學(xué)習(xí)統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)。我會更早地學(xué)會探索和利用貝葉斯網(wǎng)絡(luò)的奇跡和力量?!?
這也是作者、納什維爾范德比爾特大學(xué)醫(yī)學(xué)院生物統(tǒng)計學(xué)教授弗蘭克·哈勒爾(Frank Harrell)對按下統(tǒng)計重置按鈕(@f2harrell)的看法。他告訴我:
“在學(xué)習(xí)任何關(guān)于抽樣分布或假設(shè)檢驗的知識之前,我會從貝葉斯統(tǒng)計開始,徹底了解貝葉斯統(tǒng)計?!?
當(dāng)我問Data-Mania的首席執(zhí)行官莉蓮·皮爾森(Lillian Pierson)從哪里開始時,她也提到了貝葉斯統(tǒng)計學(xué):
“如果我必須重新開始統(tǒng)計,我會從3個基礎(chǔ)開始:t檢驗、貝葉斯概率和皮爾森相關(guān)性?!?
就我個人而言,我沒有做過很多貝葉斯統(tǒng)計,這是我在統(tǒng)計方面最大的遺憾之一。我可以看到用貝葉斯方法做事的潛力,但因為我從來沒有老師或?qū)煟覐膩頉]有真正找到一種方法。
也許有一天我會--但在那之前,我會繼續(xù)傳遞來自這里統(tǒng)計學(xué)家的信息。
跟我重復(fù):
學(xué)習(xí)貝葉斯統(tǒng)計。
學(xué)習(xí)貝葉斯統(tǒng)計。
學(xué)習(xí)貝葉斯統(tǒng)計!
谷歌決策情報主管凱西·科濟(jì)爾科夫(Cassie Kozyrkov)也給了我一個非常有趣的觀點(diǎn),她告訴我她:
“大概喜歡用打印的統(tǒng)計表生篝火吧!”
嗯,阿門,但說真的,你會從哪里開始統(tǒng)計數(shù)據(jù)?
“模擬!如果我必須從頭開始,我想從基于模擬的統(tǒng)計方法開始?!?
好吧,我同意你的觀點(diǎn),但為什么特別是模擬呢?
“在大多數(shù)STAT101課程中教授的‘傳統(tǒng)’方法是在計算機(jī)出現(xiàn)之前發(fā)展起來的,不必要地依賴于限制性假設(shè),這些假設(shè)將統(tǒng)計問題塞進(jìn)你可以用常見的分布和那些討厭的過時印刷表格分析解決的格式?!?
我抓到你了。那么你對打印的表格到底有什么不同呢?
“嗯,我經(jīng)常想知道傳統(tǒng)課程是否弊大于利,因為我不斷看到它們的幸存者犯‘第三類錯誤'--正確回答錯誤的方便問題。有了模擬,你可以回到第一原理,發(fā)現(xiàn)統(tǒng)計學(xué)的真正魔力?!?
統(tǒng)計有魔力?
“當(dāng)然可以!我最喜歡的部分是,通過模擬學(xué)習(xí)統(tǒng)計學(xué)迫使你面對你的假設(shè)所扮演的角色。畢竟,在統(tǒng)計學(xué)中,你的假設(shè)至少和你的數(shù)據(jù)一樣重要,如果不是更重要的話?!?
當(dāng)談到他的建議時,KDnuggets(@KDnuggets)的創(chuàng)始人格雷戈里·皮亞特斯基建議:
“我會從利奧·布雷曼關(guān)于兩種文化的論文開始,另外我會研究貝葉斯推理。”
如果你還沒有讀過那篇論文(這篇論文是開放存取的),Leo Breiman為算法建模做了鋪墊,在算法建模中,統(tǒng)計數(shù)據(jù)被模擬成一個黑箱模型,而不是遵循一個規(guī)定的統(tǒng)計模型。
這就是凱西得到的--統(tǒng)計模型很少適合現(xiàn)實世界的數(shù)據(jù),我們要么試圖將數(shù)據(jù)復(fù)制到模型中(對錯誤的問題得到正確的答案),要么切換它,做一些完全不同的事情--模擬!
這是我的原始帖子的摘錄,它相當(dāng)長--太長了,不能完整地在這里發(fā)布(有30多個世界級的貢獻(xiàn)者!)。
如果你喜歡閱讀,你可能會有興趣聽聽Dez Blanchfield對領(lǐng)域?qū)<业目捶?,或者M(jìn)ichael Friendly和Alberto Cairo對數(shù)據(jù)可視化的過去、現(xiàn)在和未來的看法。
還有一本免費(fèi)下載的書詳細(xì)介紹了貢獻(xiàn)者的所有評論,包括Natalie Dean和Jen Stirrup對信息流和偵探工作的看法。
不要讓我從Charles Wheelan和Chelsea Parlett-Pelleriti關(guān)于交流的史詩般的建議開始,或者Apache Crunch項目創(chuàng)始人Josh Wills關(guān)于統(tǒng)計食譜、微積分和模擬統(tǒng)計之間的比較。
太棒了--你真的不想錯過他們!
請過來閱讀原始帖子。
簡歷:李·貝克里斯是一位獲獎的軟件創(chuàng)建者,他住在黑暗的房間里的鍵盤后面。只有監(jiān)視器發(fā)出的光照亮他,他渴望找到電燈開關(guān)。他在科學(xué)、統(tǒng)計和人工智能方面有幾十年的經(jīng)驗,他熱愛用數(shù)據(jù)講故事,然而盡管解釋了十幾次,他的母親仍然不明白他是做什么的。他堅持認(rèn)為數(shù)據(jù)分析比我們想象的簡單得多,他創(chuàng)作了友好、易懂的書籍和視頻課程,教授數(shù)據(jù)分析和統(tǒng)計的基礎(chǔ)知識。作為卡方創(chuàng)新公司的首席執(zhí)行官,有一天他想退休去做一些更簡單的事情,比如鱷魚摔跤。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案 ...
2025-09-09