
給師弟師妹們學習數(shù)據(jù)挖掘的一些建議
看著剛進實驗室的師弟師妹們的迷茫,雖然也與他們進行過一些零散的交談,但是都不夠系統(tǒng)。因此,根據(jù)自己的經(jīng)歷給出學習數(shù)據(jù)挖掘的一些建議,大家可以根據(jù)自身的情況,具體問題具體分析,作為參考。希望在上一屆的基礎(chǔ)上,走的更深,走的更遠。
一. 讀研與數(shù)據(jù)挖掘基礎(chǔ)
首先介紹一下大家都比較關(guān)心的幾個問題,包括我們組的研究方向是什么,論文相關(guān)問題,大數(shù)據(jù)與工作相關(guān)問題,上海戶口問題幾個方面。
1. 我們組的研究方向是什么
我們組大的研究方向是數(shù)據(jù)挖掘,論文的研究方向是推薦算法。要注意大的研究方向,論文的研究方向與工作方向的區(qū)別和聯(lián)系。
2. 論文相關(guān)問題
讀研究生免不了會思考一個問題,讀研的意義是什么?我自己認為讀研的最大意義是訓練自己系統(tǒng)化的嚴謹?shù)姆治鏊季S能力。在導師給定論文研究方向后,如何確立更細的研究方向,如何檢索資料,如何閱讀英文論文,如何提出自己的創(chuàng)新點,如何做實驗,如何寫論文,如何修改論文,如何投稿,如何退修,如果是國際會議,還要去做英文口頭報告,與同行交流等,這些問題都是需要自己去思考的。
3. 大數(shù)據(jù)與工作相關(guān)問題
數(shù)據(jù)挖掘屬于大數(shù)據(jù)專業(yè)嗎?當然屬于?,F(xiàn)在大數(shù)據(jù)找工作相對還是比較理想的。關(guān)鍵是要學習哪些課程呢?以前給大家推薦了很多的書籍,但是效果卻恰恰相反,因為實在太多了根本看不完,更不知閱讀書籍的順序,淺嘗輒止,最后一本書也沒有看完,研究生就結(jié)束了。
(1)最低保障書籍
無論將來做什么,熟練掌握一門編程語言,一個數(shù)據(jù)庫,數(shù)據(jù)結(jié)構(gòu),算法都是必備的。
《高性能MySQL》
《數(shù)據(jù)結(jié)構(gòu)與算法分析:Java語言描述》
《算法》:http://book.douban.com/subject/19952400/
(2)Python與機器學習
《集體智慧編程》
《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》
《數(shù)據(jù)挖掘:概念與技術(shù)》
Python官方文檔:https://www.python.org/
Scikit-Learn官方文檔:http://scikit-learn.org/stable/
(3)Java相關(guān)書籍
《Java開發(fā)實戰(zhàn)經(jīng)典》
《Java Web開發(fā)實戰(zhàn)經(jīng)典》
《Java虛擬機規(guī)范》
Java SE:http://docs.oracle.com/javase/8/docs/api/
Java EE:http://docs.oracle.com/javaee/6/api/
(4)Hadoop與Spark書籍
《大數(shù)據(jù)日知錄:架構(gòu)與算法》
《Hadoop權(quán)威指南》
《大數(shù)據(jù)Spark企業(yè)級實戰(zhàn)》
《Scala編程》
Hadoop官方網(wǎng)站:http://spark.apache.org/
Spark官方網(wǎng)站:http://spark.apache.org/
Scala官方網(wǎng)站:http://www.scala-lang.org/
說明:認準目標,耐住性子,一步一步往前走。要把上面推薦的書籍硬著頭皮讀完,數(shù)據(jù)挖掘基本也就算是入門了。
4. 上海戶口問題
上海戶口屬于積分制,如果想要在校期間就拿到,那么唯一的方式就是參數(shù)每年的研究生數(shù)據(jù)建模比賽,并且獲獎。獲獎比例還是很高的。其實,好好學習Python,買本數(shù)學建模的書籍看完,看幾篇近些年來的獲獎?wù)撐?,比賽時硬著頭皮鉆研一道題目并且寫好論文,基本上都可以獲獎。
二. 數(shù)據(jù)挖掘進階
數(shù)據(jù)挖掘涉及多個方向,但是通常從數(shù)學統(tǒng)計,數(shù)據(jù)庫和數(shù)據(jù)倉庫,機器學習三個方向來進行研究。當我想學習一個方向的時候,最希望做的事情就是讓別人給我列出一個書單。因為我也會給你們列出一個書單,讓你們慢慢研究吧。
1. 數(shù)學統(tǒng)計
(1)理論數(shù)學:復變函數(shù),實變函數(shù),泛函分析,拓撲學,積分變換,微分流形,常微分方程,偏微分方程等。
(2)應(yīng)用數(shù)學:離散數(shù)學(集合,邏輯,組合,代數(shù),圖論,數(shù)論),具體數(shù)學,張量分析,數(shù)值計算,矩陣論,逼近論,運籌學,凸優(yōu)化,小波變換,時間序列分析等。
(3)概率:概率論,測度論,隨機過程等。
(4)統(tǒng)計:統(tǒng)計學,多元統(tǒng)計,貝葉斯統(tǒng)計,統(tǒng)計模擬,非參數(shù)統(tǒng)計,參數(shù)統(tǒng)計等。
2. 數(shù)據(jù)庫和數(shù)據(jù)倉庫
《數(shù)據(jù)庫系統(tǒng)概念》
《數(shù)據(jù)庫系統(tǒng)實現(xiàn)》
《分布式系統(tǒng):概念與設(shè)計》
3. 機器學習
通信原理;數(shù)據(jù)挖掘;機器學習;統(tǒng)計學習;自然語言處理;信息檢索;模式識別;人工智能;圖形圖像;機器視覺;語音識別;機器人學等。(這方面的經(jīng)典書籍都可以看看,后面慢慢補充)
4. 其它書籍
(1)Linux
(2)網(wǎng)絡(luò)原理,編譯原理,組成原理,
(3)JVM
(4)UML
(5)軟件工程
(6)設(shè)計模式
(7)云計算與Docker
(8)并行計算
(9)需求分析
三. 學習與方法
作為一名軟件工程師,需要熟練掌握的工具,如下所示:
(1)博客
除了學習之外,更要思考和總結(jié),把還沒有忘卻的記憶緩存序列化成為文字,記錄在博客中。
(2)語言
大數(shù)據(jù)常用的語言包括Java,Scala,Python。如果一定要選擇精通一門語言,自己選擇Scala,同時深度學習JVM。(3)開發(fā)工具
自己選擇IntelliJ IDEA用于Java和Scala的開發(fā),Eclipse用于Python的開發(fā)。
(4)GitHub
每天都要堅持編程,主動參與開源項目。
(5)Linux
工作常用的是Ubuntu 12.04 LTS。
由于時間原因,上面總結(jié)的還比較粗糙,算是第一個版本吧,后面還會繼續(xù)深度總結(jié)和完善。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10