
張前輩:您好!
我是中國海洋大學(xué)一名研一生,專業(yè)是數(shù)據(jù)庫。我想自己選擇一門方向,認(rèn)真的學(xué)習(xí),作為終身職業(yè)。譬如 java程序員、數(shù)據(jù)挖掘人員、數(shù)據(jù)庫管理人員等等。我比較喜歡數(shù)據(jù)挖掘,但是若干問題難以釋惑。
問題1:現(xiàn)在選擇數(shù)據(jù)挖掘作為終身職業(yè)是明智之舉嗎?
現(xiàn)在網(wǎng)上對(duì)數(shù)據(jù)挖掘的前景討論的很厲害,褒貶不一。但是至少可以確定的是數(shù)據(jù)挖掘已經(jīng)越來越被重視了。如你所言,大家看到的只是表面,許多成功的案例企業(yè)沒有對(duì)外公開。但不可否認(rèn)的是,數(shù)據(jù)挖掘在中國的應(yīng)用有屠龍之技的嫌疑,廣大的企業(yè)還沒有重視起來。
總之,男怕投錯(cuò)行,這個(gè)問題總是敲擊著我。如果我是您的弟弟,您會(huì)鼓勵(lì)我走數(shù)據(jù)挖掘之路嗎?還是推薦其他的IT職業(yè)?
IDMer:
就我個(gè)人的觀點(diǎn),數(shù)據(jù)挖掘的發(fā)展還是前途很廣闊的。說白了,數(shù)據(jù)挖掘就是一種分析問題的手段,問題一直會(huì)有,解決問題的手段也就一直有存在的必要。也許你聽說過美國早期西部淘金熱的時(shí)候,富起來的不是淘金者,而是為淘金者提供工具、水的人,甚至因?yàn)榈V工需要結(jié)實(shí)耐磨的衣服,以致于牛仔褲風(fēng)行起來并經(jīng)久不衰。
至于你提到“屠龍之技”之說,只是很多人因?yàn)椴皇煜?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘的內(nèi)部技術(shù)而產(chǎn)生的莫測(cè)高深的感覺。其實(shí),數(shù)據(jù)挖掘本身并不是新技術(shù),它融合了來自于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫和機(jī)器學(xué)習(xí)等多學(xué)科已經(jīng)成熟的內(nèi)容,冠上了一個(gè)看起來比較時(shí)髦的名字而已。
組成數(shù)據(jù)挖掘的這三門支柱學(xué)科都已經(jīng)發(fā)展了多年,也已得到了廣泛的應(yīng)用。那么我們也有理由相信它們的融合,能幫助我們解決更多的分析方面的問題。何況,業(yè)界還是有很多的成功案例,體現(xiàn)出數(shù)據(jù)挖掘所帶了獨(dú)特優(yōu)勢(shì),而這些,是傳統(tǒng)的BI(報(bào)表、OLAP等)無法支持的。
以上說了不少數(shù)據(jù)挖掘的好話,下面再看看硬幣的另一面。如果你是我的弟弟(呵呵,雖然我沒有,但也和很多年輕的師弟師妹聊過擇業(yè)的話題),我會(huì)建議你不做IT業(yè),哈哈,一句半真半假的玩笑。因?yàn)樵贗T這個(gè)行業(yè)看起來還是滿辛苦的,而且在很多項(xiàng)目中,常常需要重復(fù)一些沒什么技術(shù)含量的任務(wù),消耗的精力不少,獲得的成就感卻不多。
Anyway,我的建議,其實(shí)也是我原來給自己的一句座右銘:認(rèn)為對(duì)的就去做。找到自己的興趣所在,并且感覺也有發(fā)展,那就盡力去做好了。
|
問題2:如果我現(xiàn)在選擇了數(shù)據(jù)挖掘,應(yīng)該怎么做?
您曾經(jīng)在博客上回復(fù)一位北郵同學(xué),建議熟悉學(xué)習(xí)各種算法;建立模型,創(chuàng)新思路改進(jìn)算法撰寫論文。
我當(dāng)前的計(jì)劃是 學(xué)習(xí)各種算法的原理;學(xué)習(xí)java語言;研究weka源碼,深入了解幾種經(jīng)典算法的步驟;學(xué)習(xí)了解ETL,數(shù)據(jù)倉庫、OLAP等;通過使用的數(shù)據(jù)集建立挖掘模型;思考論文;有空的話 還得SPSS或其他一個(gè)流行軟件的使用方法。其中,我覺得難點(diǎn)是對(duì)數(shù)據(jù)集的整理形成挖掘流程的輸入。
其中,我也有若干疑惑:掌握一門數(shù)據(jù)庫是很重要的,但是沒有時(shí)間一一了解SQL Server、Oracle、DB2等,但是在求職時(shí),又說不定單位要求會(huì)哪門數(shù)據(jù)庫???我想就SQL Server單獨(dú)進(jìn)行深入的學(xué)習(xí),包括學(xué)習(xí)在SQL Server中數(shù)據(jù)倉庫的建立和數(shù)據(jù)挖掘的應(yīng)用,其他的也就不管了。不知我這個(gè)選一而棄其他的打算可取不可???
IDMer:
從你的計(jì)劃來看,還是對(duì)自己要掌握的知識(shí)和技能,劃出了一個(gè)范圍??瓷先ミ€不錯(cuò),我只是從個(gè)人的經(jīng)驗(yàn)出發(fā),建議你不必苛求自己十八般武藝樣樣精通,很多方面只需基本了解,選擇幾個(gè)重點(diǎn)來練成自己的絕活。人的精力畢竟有限,目標(biāo)越大就越難實(shí)現(xiàn)。
至于選擇那些作為重點(diǎn),就需要在廣泛了解的基礎(chǔ)上,結(jié)合自己的興趣進(jìn)行篩選了。
|
問題3:如何使學(xué)習(xí)階段與行業(yè)應(yīng)用靠攏?
有一位學(xué)長(zhǎng),建議我學(xué)技術(shù)的時(shí)候要和行業(yè)靠攏,否則,“沒有行業(yè)背景的技術(shù)會(huì)很飄”。我覺得他說的有道理,技術(shù)是相當(dāng)寬泛的,你不可能面面俱到;而且,當(dāng)你實(shí)際工作后,也就專于一個(gè)行業(yè),技術(shù)的需要面也就變窄了。這樣,有利于學(xué)習(xí)重點(diǎn),不至于在學(xué)習(xí)時(shí),面面俱到,沒有突出。
但是,在數(shù)據(jù)挖掘方面,曾經(jīng)請(qǐng)教過你,數(shù)據(jù)挖掘人員的工作性質(zhì)。一種是在甲方做分析人員,利用所掌握的數(shù)據(jù)挖掘知識(shí)來解決一些業(yè)務(wù)問題。一種是在IT公司,為甲方實(shí)施DM、DW和BI等項(xiàng)目(前輩自己便屬于此類?)。
在這里,我不太明白作為甲方,日常具體做些什么?難道是類似于網(wǎng)管性質(zhì)的?那樣不更傾向于數(shù)據(jù)庫管理人員?他們還算是專業(yè)的數(shù)據(jù)挖掘人員嗎,怎么覺得公司不大會(huì)安排這樣的職位呢?
我比較傾向于做乙方,那樣好像更專業(yè)似的。但是,乙方的話,都說數(shù)據(jù)挖掘在金融、電信、銀行還是銷售等方面主要應(yīng)用。難道這意味著要學(xué)習(xí)或了解金融電信的背景、CRM、經(jīng)濟(jì)學(xué)、excel……?
還有,您曾提到,畢業(yè)后也可以做研究工作,我覺得提供研究工作的崗位畢竟是少的。而且,那樣掙錢多嗎(流汗中)?
是否現(xiàn)在應(yīng)該考慮以后進(jìn)哪個(gè)(哪類)公司,現(xiàn)在根據(jù)它的要求來強(qiáng)化自己呢?
IDMer:
你這位學(xué)長(zhǎng)說得沒錯(cuò),脫離實(shí)際的純理論大多會(huì)消散于無形。至于甲乙方的區(qū)別,實(shí)際上也沒有想像中那么大,特別是對(duì)于剛剛參加工作的基層員工來說,可能差不多。
先在乙方歷練幾年,然后跳到甲方,這種狀況我看到不少。也許是因?yàn)樵谝曳浇邮艿腻憻捄蛯W(xué)習(xí)到新知識(shí)經(jīng)驗(yàn)的機(jī)會(huì)更多些吧,可以在年輕時(shí)有更多的積累。當(dāng)然,如果有很好的在甲方工作的機(jī)會(huì),也是不錯(cuò)的選擇。
到乙方工作,特別是對(duì)一直待在校園里的應(yīng)屆生來說,招聘方重點(diǎn)考察的大多是你的知識(shí)是否扎實(shí)、性格是否有利于融入團(tuán)隊(duì)等方面。至于對(duì)行業(yè)的了解,一般很少有過多的期望,除非你有多年在相關(guān)行業(yè)做項(xiàng)目的經(jīng)驗(yàn)。
國內(nèi)的研究機(jī)構(gòu)還是以科研院所和高校為主,待遇一般要比公司低,但也有很多人,包括我的師兄師姐以及同學(xué),選擇了繼續(xù)做研究,因?yàn)樗麄儠?huì)從研究中獲得很多樂趣。另外一些研究機(jī)構(gòu)是企業(yè)特別是外企的研究院,待遇也很好,但就要求你很出色才有機(jī)會(huì)加入。做研究還有一個(gè)很好的地方,就是國外的院校或研究所。
|
后記:覺得自己的提問沒有意義,好像有些是明擺著的問題,又抑或是些不值得回答的問題似的。前輩若有時(shí)間,還望指點(diǎn)一二。我不急,若忙的話,啥時(shí)候回復(fù)都可以。
文章來源于IDMer的搜狐博客
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10