
作者尤金·顏,亞馬遜應(yīng)用科學(xué)家
“與其手動檢查我們的數(shù)據(jù),為什么不試試領(lǐng)英的做法呢?它幫助他們實現(xiàn)了95%的準(zhǔn)確率和80%的召回率?!?
然后我的隊友分享了如何使用k-最近鄰來識別不一致的標(biāo)簽(在職位名稱中)。然后,LinkedIn在一致的標(biāo)簽上訓(xùn)練支持向量機(jī)(SVM);然后用支持向量機(jī)對不一致的標(biāo)簽進(jìn)行更新。這幫助他們在職稱分類器上達(dá)到95%的精確度。
這個建議在我們的討論中是最有用的。對它的跟蹤導(dǎo)致我們的產(chǎn)品分類器的最終準(zhǔn)確率達(dá)到95%。我問她,她是如何貢獻(xiàn)出這種批判性的見解的?!芭?,我只是偶爾看看報紙。”她回答。具體來說,她每周都會讀1-2篇論文,通常是圍繞團(tuán)隊正在研究的主題。
通過閱讀論文,我們能夠了解其他人(例如LinkedIn)發(fā)現(xiàn)哪些有用(或者不有用)。然后我們可以適應(yīng)他們的方法,而不必重新發(fā)明火箭。這有助于我們以更少的時間和精力交付工作解決方案。
如果說我比別人看得更遠(yuǎn),那是因為我站在巨人的肩膀上。
-艾薩克·牛頓
閱讀論文還拓寬了我們的視野。盡管我們可能在數(shù)據(jù)科學(xué)的狹隘領(lǐng)域工作,但切向研究的發(fā)展往往是有幫助的。例如,Word嵌入和graphshave的思想在推薦系統(tǒng)中很有用。同樣,來自計算機(jī)視覺的思想--如遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)--對自然語言處理(NLP)有幫助。
閱讀論文還使我們了解最新情況。在過去的十年里,自然語言處理領(lǐng)域取得了長足的進(jìn)步。盡管如此,通過閱讀最關(guān)鍵的10篇左右的論文,我們可以很快跟上速度。通過了解最新情況,我們在工作中變得更有效,從而需要更少的時間和精力。然后我們有更多的時間閱讀和學(xué)習(xí),導(dǎo)致一個良性循環(huán)。
如果我們開始養(yǎng)成這個習(xí)慣,我們可以閱讀任何我們感興趣的東西--大多數(shù)論文都會有一些東西教我們。閱讀我們感興趣的話題也會更容易養(yǎng)成習(xí)慣。
我們也可以根據(jù)實用性來選擇論文。例如,我們可能需要快速理解一個項目的域。在開始一個項目之前,我?guī)缀蹩偸橇舫鰰r間進(jìn)行文獻(xiàn)綜述?;◣滋鞎r間研究論文可以節(jié)省幾周甚至幾個月的死胡同和不必要的重新發(fā)明輪子。
建議也是確定要閱讀的有用論文的方便方法。一個黑客是在社交媒體上關(guān)注我們崇拜的人,或者訂閱精心策劃的時事通訊--我發(fā)現(xiàn)這些來源的信息噪聲比很高。
我讀什么報紙?出于實用性,我讀的多是與工作有關(guān)的論文。這使我能夠立即應(yīng)用我所讀到的知識,從而加強(qiáng)我的學(xué)習(xí)。在工作之外,我對序列感興趣,并傾向于閱讀強(qiáng)化學(xué)習(xí)。我特別喜歡分享什么有效什么無效的論文,比如通過消融研究。這包括關(guān)于Word2VEC、BERT和T5的論文。
在谷歌搜索“如何閱讀論文”會返回?zé)o數(shù)有用的結(jié)果。但如果你覺得它勢不可擋,這里有幾個我發(fā)現(xiàn)很有幫助的:
我的方法類似于三遍法。在下面的例子中,我將分享我是如何閱讀幾篇recsys的論文來了解新穎性、多樣性和偶然性的度量標(biāo)準(zhǔn)的。等等。
在第一遍中,我掃描摘要以了解論文是否有我需要的內(nèi)容,如果有,我瀏覽標(biāo)題以確定問題陳述、方法和結(jié)果。在這個例子中,我專門尋找如何計算各種度量的公式。我給我的單子上的所有文件一個第一關(guān)(并拒絕開始第二關(guān),直到我完成了單子)。在本例中,大約一半的論文進(jìn)行了第二次傳遞。
在第二遍中,我再次閱讀每一篇論文,并突出顯示相關(guān)章節(jié)。這有助于我在以后參考論文時迅速發(fā)現(xiàn)重要的部分。然后,我為每篇論文做筆記。在本例中,注釋主要圍繞度量(即,方法、公式)。如果是一個應(yīng)用程序的文獻(xiàn)綜述(例如,recsys、產(chǎn)品分類、欺詐檢測),說明將側(cè)重于方法、系統(tǒng)設(shè)計和結(jié)果。
對于大多數(shù)論文來說,第二次通過就足夠了。我已經(jīng)捕獲了關(guān)鍵信息,如果需要,可以在未來參考它。盡管如此,如果我讀論文作為文獻(xiàn)綜述的一部分,或者如果我想鞏固我的知識,我有時會做第三步。
閱讀只為心靈提供知識材料;是思考使我們讀到的東西成為我們的。
-約翰·洛克
在第三關(guān)中,我將論文中常見的概念綜合成自己的注釋。各種論文都有自己的方法來衡量新穎性、多樣性、偶然性等,我把它們合并成一個音符,并比較它們的利弊。在這樣做的時候,我經(jīng)常發(fā)現(xiàn)筆記和知識中的空白,不得不重溫原始論文。
最后,如果我認(rèn)為它對其他人有用,我會寫出我所學(xué)到的并在網(wǎng)上發(fā)布。相對于從頭開始,有我的筆記作為參考讓寫作容易得多。這導(dǎo)致了諸如:
在深入你的下一個項目之前,花一兩天時間瀏覽幾篇相關(guān)的論文。我相信從中長期來看,這將為您節(jié)省時間和精力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10