
自由數(shù)據(jù)科學家Arnuld談數(shù)據(jù)
埃里克·韋伯(是的,那個長得不錯的家伙帶著一只可愛的狗)最近在LinkedIn上寫了一篇帖子,講述了當他開始數(shù)據(jù)科學生涯時,他希望自己能少做的10件事。這篇文章是我通過這十點的旅程。首先,你應該繼續(xù)閱讀他的帖子。下面是截圖:
首先,這不是一個“內(nèi)容”的帖子。
已經(jīng)有這么多的文章和博客帖子了,所以看看他們。在這里,我們將談談你的重點和方向,當你渴望成為一名數(shù)據(jù)科學家,并得到業(yè)界的關(guān)注。
是的,這需要你很多時間和精力。這個障礙是你應該馬上處理的。一開始我和它作斗爭,但幾個月后,它就消失了。我把這個突破歸因于我的日常閱讀習慣。
我一直在閱讀LinkedIn上的帖子(尤其是埃里克·韋伯本人的帖子)。此外,我每天讀很多來自不同數(shù)據(jù)科學家和機器學習工程師的博客,讀一兩個小時或更多。這讓我明白了數(shù)據(jù)科學在工業(yè)工作中的重要性:你用你的技能為組織增加了多少價值。通過構(gòu)建你感興趣的東西或構(gòu)建解決問題的東西來定義價值。你通過回答這個問題來選擇學什么,它會給你一個關(guān)于什么該學什么不該學的想法。
我花了幾個月才意識到這一點(我猜是6個月)。我將把這幾個月加在一起,看我們可以節(jié)省多少時間。
是的,這是另一場斗爭,主要是因為以下幾個原因:
別上當。不要把工作描述放在心上。大多數(shù)“面試瑣事”是數(shù)據(jù)科學的新事物與組織中人才獲取、數(shù)據(jù)科學和軟件工程團隊之間溝通渠道不暢的結(jié)合。與其對此感到不知所措,你需要專注于如何破解它。
解決這個問題的一個方法是通過觀察現(xiàn)實。如果你認識任何現(xiàn)實生活中的數(shù)據(jù)科學家、數(shù)據(jù)分析師和機器學習工程師(離線的,在物理世界中),和他們談談他們的工作將是一個很好的主意。如果你不認識任何人,那么你可以隨時查看博客和文章。
我線下不認識這方面的專業(yè)人士。所以我通過閱讀博客和文章來學習。我所了解到的是,公司會招來很多人參加面試,他們都是“懂”東西的人,但很少有“造”東西的人。因此,專注于構(gòu)建材料而不是單純的學習和教育(例如,部署和生產(chǎn)是兩件重要的事情)。我花了5-6個月才意識到這一點。
6+6=迄今12個月
啊哈,這是我最喜歡的:-)因為這是我浪費了大部分時間的地方:
看看我的個人資料,我在軟件開發(fā)(C語言)方面有4.5年的經(jīng)驗,現(xiàn)在已經(jīng)做了8個月的數(shù)據(jù)科學工作,但仍然遠遠沒有回答這個問題:
你最喜歡的機器學習算法是什么?為什么?
是的,我同意我的情況看起來像是big-o:O(n^n)的最壞情況
我讀過成百上千(不,我沒有夸張)的博客帖子和文章,這些人找到了數(shù)據(jù)科學的工作,改變了行業(yè)。我追蹤并模仿他們的數(shù)據(jù)科學之旅進入我的生活,從他們的思維模式到他們課程的選擇,甚至他們對某些書中某些章節(jié)的選擇,就像一份完美的復制品。我仍然沒有回答上面的問題,因為我甚至不知道為什么我會喜歡一個機器學習算法而不是另一個。畢竟,我只是在無意識地咀嚼所有的模特,以“變得像他們一樣”的名義。
兩天前,我放棄了它,決定遵循我認為我應該做的事情。(令人驚訝的是,我今天看到了Eric的帖子。好像宇宙在告訴我,我走在正確的道路上,一條屬于我的道路。)
我認為我們每個人都必須個性化我們的旅程。我們的環(huán)境、我們的才能、我們的經(jīng)驗、我們的態(tài)度、我們的職業(yè)道德、我們的背景和我們的學習能力,都是不同和獨特的。這就是為什么追蹤別人的路徑可能永遠行不通。
所以我決定我將嘗試和開創(chuàng)自己的道路,成為一名數(shù)據(jù)科學家。這并不是說我會停止閱讀別人的旅行,我仍然會閱讀,但我不會盲目地跟隨他們,試圖將其復制到我的生活中,我會把它們作為指南針,作為指導機制。這花了我8個月的時間。遲來總比不來好。
6+6+8=20個月
我的計算機編程經(jīng)驗解決了這個問題。我花了50年的時間在這個行業(yè)做編程,寫代碼為我的雇主賺錢,這已經(jīng)教會了我“完成”比“完美”好。發(fā)現(xiàn)一個人面臨的問題,并建立一個解決方案,實際上是唯一重要的事情。單純的學習和教育是不行的。
6+6+8+0=20個月
回到2018年,我花了很多時間為數(shù)據(jù)科學學習數(shù)學和統(tǒng)計學。我花了4個月的時間學習:
這是一個多么大的錯誤:-(.據(jù)我今天所知,我所需要的只是:
是的,沒有什么花哨的,只有基本的。你找到工作后能做的所有花哨的事情。在此之前,您使用Python或R庫。不要像在學校或大學里那樣試圖學習數(shù)學公式,而是嘗試使用Python中的庫調(diào)用來學習如何使用它,例如使用Scipy計算t檢驗,并學習理解它所需的數(shù)學知識:
3.1。Python-Scipy課堂講稿中的統(tǒng)計學
一個簡單的線性回歸給出兩組觀測值,x和y,我們想檢驗y是線性的假設...
嗯,有8-10個月:
6+6+8+0+10=30個月
我糾結(jié)于這個問題:
當我從一家公司得到一個帶回家的任務時,這個問題就消失了,這家公司找我做R相關(guān)的工作。在使用R和Python完成帶回家的任務后,我再也不想碰R了。根據(jù)我的經(jīng)驗,Python更適合于軟件工程實踐,而在為實際工業(yè)工作編寫數(shù)據(jù)科學代碼時,軟件工程實踐是絕對必要的。它幾乎和你在做軟件開發(fā)時一樣。從那以后,我完全變成了Python。就我個人而言,如果我必須使用另一種語言,我會使用JuliaInstead。大約4-6個月。
6+6+8+0+10+4=34個月
這個錯誤是我在“數(shù)學錯誤”之后做的。我花了幾個月的時間思考SQL與NoSQL的對比。我們看著某件事,我們從我們的觀點來思考它,并認為這就是它的意思。我們都知道這是一個數(shù)據(jù)時代,每天都有數(shù)百萬兆字節(jié)的數(shù)據(jù)產(chǎn)生。大部分都是非結(jié)構(gòu)化的。我猜我應該學習NoSQL。但是幾乎所有的工作描述都只提到SQL。然后我會想到做SQL。
我既沒有學SQL也沒有學NoSQL。這就是為什么對一件事左右為難會消磨你幾個月的時間。
我不再以我的方式來解釋事情,而是開始關(guān)注那些獲得數(shù)據(jù)科學工作的人以及他們學到了什么。他們都把SQL列為一種技能。所以我改用SQL。開始ISSQLBolt的好地方。
我不會在這里考慮任何時間浪費,因為即使我沒有學到任何東西,我用這些時間來學習其他東西。所以,到目前為止的等式是:
6+6+8+0+10+4+0=34個月
這是一個你需要認真改變心態(tài)的領(lǐng)域,我也需要這樣的改變。我的計算機編程背景使我成為一個百分之百的技術(shù)人員,他真的不知道如何不僅僅是一個團隊工作者。對團隊的貢獻是我社交和溝通技巧的終點。
我從一開始就不知道這一點,但由于我的閱讀習慣,我發(fā)現(xiàn)了數(shù)據(jù)科學的許多特點,使它與其他技術(shù)工作格格不入。我克服這一點的一個方法是與我認識或遇到的人談論大數(shù)據(jù)。通過向我的朋友和其他人解釋數(shù)據(jù)科學,機器學習概念。但是由于我的自由職業(yè)工作和數(shù)據(jù)科學學習需要我花很多時間在電腦前,我沒有得到很多機會來鍛煉這種方法。
數(shù)據(jù)科學不僅僅是編程,數(shù)據(jù)科學不僅僅是Web開發(fā),它不僅僅是分析數(shù)據(jù)和建立模型。這是故事的一半。數(shù)據(jù)科學的另一半是能夠與不太懂技術(shù)的人交流。業(yè)務利益相關(guān)者、管理層的決策者和客戶是你將要與之打交道的三種不同類型的非技術(shù)人員。因此,如果我們把與人合作視為“另一項技術(shù)工作”,那么它將是一個巨大的痛苦。Bycole Nussbaumer Knaflic有一本關(guān)于交流數(shù)據(jù)洞察力的優(yōu)秀書籍,書名為“用數(shù)據(jù)講故事”。它是一種必讀的書。
這還有另一面。業(yè)務問題。你所建立的模型,你所做的比較,以及你所達到的準確性,它是如何使業(yè)務受益的?你看,如果一個數(shù)據(jù)科學家不能為業(yè)務帶來利潤或利益或增值,他的工作就沒有意義。如果你來自像我這樣的技術(shù)背景,這是一件很難掌握和擅長的事情。在這種情況下,技術(shù)心態(tài)所做的是讓您的注意力只集中在構(gòu)建模型和分析數(shù)據(jù)上,因為這是我們所做的。我們沒有業(yè)務上下文。
我沒有一個很好的解決辦法,因為從來沒有任何個人經(jīng)驗。所以在這里半信半疑地接受我的建議。也搜索自己。我只能閱讀博客、帖子和文章來理解該做什么。我也不認識任何產(chǎn)品經(jīng)理(我見過一兩個IT服務經(jīng)理,但我不知道這是否合格)。我遇到的唯一解決這個問題的方法有兩個:
如果你是一名程序員或軟件開發(fā)人員,不了解這一點會使你在技術(shù)技能上工作時間長而辛苦。6個月的損耗:
6+6+8+0+10+4+0+6=40個月
你需要避免的另一個陷阱。我在這里面陷了一段時間。我想自己寫一兩篇論文,但現(xiàn)在我的第一個重點總是“構(gòu)建某個東西”。盡可能少地學習構(gòu)建某個東西。
是的,所有這些文件看起來非常非常令人印象深刻,非常漂亮。論文大多是關(guān)于學術(shù)的。你正試圖在這個行業(yè)找到一份工作。學術(shù)界和工業(yè)界并不匹配,除了兩個可能的例外:
除了上面所說的,我看不出偏離我的重心在一個好的一級或二級公司找到一個數(shù)據(jù)科學家的職位有什么意義。別誤會我的意思,我喜歡做研究。事實上,早在大學時,我就想讀博士學位。在微內(nèi)核研究中。研究工作需要大量的時間和精力。我認為更好的生活方式是在職業(yè)生涯中找到平衡點:在你的興趣和市場/行業(yè)需求之間找到平衡點。避免在任何一邊摔倒。
與其跟上所有的論文,一個更好的平衡學習的方法是:
6+6+8+0+10+4+0+6+10=50個月
這個很大。我想我一輩子都在為此掙扎。有些人有,有些人沒有。我傾向于說,也許聰明人沒有這個問題(我見過或讀到的聰明人,他們沒有)。像我這樣的人一輩子都在努力戰(zhàn)勝它。這是個監(jiān)獄,相信我。帶著“做某事只有一種方法”的心態(tài)生活是相當令人沮喪的。如果你看現(xiàn)實生活中的故事,想法沒有任何限制。
這更多的是個人發(fā)展的障礙,而不是技術(shù)上的障礙,因為無論你在哪個領(lǐng)域工作,這一個都會出現(xiàn),它絕對與技術(shù)無關(guān)。我還在努力。到目前為止,我找到的一個解決辦法是,當我在某個問題上找不到路時,如果是晚上,我會下機器去散步;如果不是晚上,我會讀一本完全無關(guān)的書(一些非小說類的書),或者騎摩托車,完全忘記這個問題。然后我會回來,試著從不同的文章或博客文章中學習同樣的東西,而不是提到我被困的原點。只是從別人的角度看待同樣的問題。
我不能給這個規(guī)定任何時間限制。我一生都在為這個奮斗:
6+6+8+0+10+4+0+6+10+壽命=50+壽命
所以,我浪費了將近50個月?
不是真的。
當談到我浪費時間的地方時,所有這些觀點都相互重疊。實際上是12個月。2019年12月至2020年11月。在開始的幾個月里,我甚至不知道我需要做什么。事情直到今年2020年3月才開始有意義。我想如果事情對我來說更清楚,我可以節(jié)省4-6個月的時間,但這只是一個瘋狂的猜測,一些真正聰明的人告訴我:需要任何時間來打破障礙。讓我再重復一遍:
我們每個人都有一次個人數(shù)據(jù)科學之旅。我們的環(huán)境、我們的才能、我們的經(jīng)驗、我們的態(tài)度、我們的職業(yè)道德、我們的背景和我們的學習能力,都是不同和獨特的。這就是為什么也許追蹤別人的道路永遠行不通。這就是為什么你需要不斷推動自己學習你能學到的東西,讓自己了解這個行業(yè)正在發(fā)生的事情,并不斷糾正你的道路(就像我們智能手機上的地圖等應用程序不斷糾正我們并指明方向)
我試圖學習神經(jīng)網(wǎng)絡,然后才能理解邏輯回歸比線性回歸更適合什么樣的問題。在機器學習有任何意義之前,我就在做深度學習。就我而言,這是因為:
深度學習和AI在媒體中無處不在。我們傾向于認為我們需要比其他人更好,而其他人已經(jīng)在寫高度數(shù)學化的博客文章,用他們?nèi)A而不實的公式和大量代碼。不相信我?檢查一下這個。當這樣的人已經(jīng)掌握了深度學習和數(shù)據(jù)科學,誰會接近我們?
是啊,這太常見了,他們給它起了個名字。它被稱為“冒名頂替綜合癥”。去讀一下吧。我以為我唯一一個受折磨的人。但后來我意識到這很常見。是的,市場是競爭的,由于目前的流行病,許多人失去了工作。我在領(lǐng)英上看到過幾個數(shù)據(jù)科學家和機器學習工程師失業(yè)的帖子。我見過他們甚至懇求“喜歡和分享”他們正在找工作??吹竭@一點令人心碎。每個人都值得過上好日子。
讓我們看看積極的一面,這場流行病擾亂了世界,它使許多企業(yè)陷入停頓,而一些企業(yè)的客戶端數(shù)量飆升(播客和視頻會議服務就是其中之一)。在這樣一個混亂的時代,我們需要更好地承受痛苦和苦難,并找到加強我們決心的方法。我相信我們出生在某一年不是偶然的,這就是我們在這場流行病中的原因。我認為我們應該從中吸取教訓,我們應該在這些時代創(chuàng)造更好的生活。我祝你在數(shù)據(jù)科學的學習之旅中好運,我希望我們繼續(xù)相互學習,使自己變得更好。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03