
這可能是現(xiàn)在收益最高,也是最受歡迎的一項(xiàng)技術(shù)之一。毫無(wú)疑問(wèn)——作為開(kāi)發(fā)人員,機(jī)器學(xué)習(xí)是一個(gè)能夠大展身手的舞臺(tái)。
機(jī)器學(xué)習(xí)是簡(jiǎn)單數(shù)據(jù)檢索與存儲(chǔ)的合理擴(kuò)展。通過(guò)開(kāi)發(fā)各種組件,使計(jì)算機(jī)更加智能學(xué)習(xí)和發(fā)生行為。
機(jī)器學(xué)習(xí)使得挖掘歷史數(shù)據(jù)和預(yù)測(cè)未來(lái)趨勢(shì)成為可能。你可能還沒(méi)意識(shí)到,但的確已經(jīng)在使用機(jī)器學(xué)習(xí),并受益頗多。與機(jī)器學(xué)習(xí)有關(guān)的例子很多,如搜索引擎產(chǎn)生結(jié)果、在線(xiàn)推薦、廣告投放、欺詐檢測(cè)以及垃圾郵件過(guò)濾等。
機(jī)器學(xué)習(xí)依賴(lài)數(shù)據(jù)進(jìn)行決策。直覺(jué)雖然重要,但卻也很難超越經(jīng)驗(yàn)數(shù)據(jù)。
機(jī)器學(xué)習(xí)的各個(gè)方面
一旦你開(kāi)始深入探索機(jī)器學(xué)習(xí),你會(huì)遇到以下幾個(gè)問(wèn)題:
1. 有監(jiān)督與無(wú)監(jiān)督的學(xué)習(xí)
2. 分類(lèi)
3. 馬爾科夫模型、貝葉斯網(wǎng)絡(luò)等
Mahout和Hadoop
Apache Mahout項(xiàng)目的目的是建立一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù)。
大數(shù)據(jù)分析與hadoop之間存在一定程度的重疊
Mahout內(nèi)置聚類(lèi)、分類(lèi)以及協(xié)同過(guò)濾等算法。除此之外還有:
1. 基于矩陣分解的推薦系統(tǒng)
2. K-均值,模糊k-均值聚類(lèi)算法
3. 隱含狄利克雷分配算法
4. 奇異值分解
5. 邏輯回歸分類(lèi)器
6. (互補(bǔ))樸素貝葉斯分類(lèi)器
7. 隨機(jī)森林分類(lèi)器
機(jī)器學(xué)習(xí)曾經(jīng)需要復(fù)雜的軟件與高端的計(jì)算機(jī),以及數(shù)據(jù)科學(xué)家。。而對(duì)于現(xiàn)在的機(jī)器學(xué)習(xí),即預(yù)測(cè)分析來(lái)講,所需要的是一個(gè)全管理的云服務(wù)。
通過(guò)使用拖拽(drag-and-drop)與一些數(shù)據(jù)流圖就可以進(jìn)行一些實(shí)驗(yàn),就如寫(xiě)代碼一般利用起高大上的算法。
數(shù)據(jù)科學(xué)家用R編寫(xiě)代碼
對(duì)于統(tǒng)計(jì)與數(shù)據(jù)挖掘的來(lái)說(shuō),R是一個(gè)很受歡迎的開(kāi)源項(xiàng)目。好消息是R能夠很容易的集成到ML Studio中。我有很多朋友在使用機(jī)器學(xué)習(xí)的功能語(yǔ)言,如F#。但是很顯然的,R在此領(lǐng)域仍占統(tǒng)治地位。
數(shù)據(jù)挖掘的測(cè)驗(yàn)與調(diào)查顯示,近年來(lái)R受歡迎的程度逐漸增強(qiáng)。R是由新澤西的Auckland大學(xué)的Ross Ihaka 與Robert Gentleman發(fā)明的,目前由R核心開(kāi)發(fā)組(R Development Core Team)負(fù)責(zé)研發(fā),其中Chambers也是開(kāi)發(fā)成員之一。R的命名主要是根據(jù)前兩個(gè)R作者名字的首字母。R是一個(gè)GNU項(xiàng)目,主要是用C語(yǔ)言與Fortran寫(xiě)的。
如何進(jìn)行數(shù)據(jù)分析
理解機(jī)器學(xué)習(xí)的最好方法就是將分析分解為3個(gè)問(wèn)題:
1. 發(fā)生了什么?
a) 從歷史角度去看
2. 將發(fā)生什么?
a) 預(yù)測(cè)未來(lái)
3. 下一步應(yīng)該怎么做?
a) 規(guī)范與指引
分析過(guò)程中大家扮演什么角色
1. 信息工作者
a) 通常使用自助服務(wù)工具Power BI:Office 365的Power BI是一種自我服務(wù)的事務(wù)智能解決途徑,能夠通過(guò)BI Excel 與Office 365給信息工作者提供數(shù)據(jù)分析與鑒別數(shù)據(jù)深層事務(wù)預(yù)測(cè)可視化的能力。
2. IT專(zhuān)家
a) 涉及數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)倉(cāng)庫(kù)、創(chuàng)建數(shù)據(jù)分析立方體及數(shù)據(jù)建模
3. 數(shù)據(jù)科學(xué)家
a) 深層次的技術(shù)與技能,包括編碼、數(shù)學(xué)、統(tǒng)計(jì)以及概率
b) 能夠通過(guò)一系列技術(shù)將概率用于預(yù)測(cè)(如未來(lái)18小時(shí)內(nèi)價(jià)格上漲的概率為42%)
c) 如蒙特卡羅(Monte Carlo)模擬,模型參數(shù)化
d) 數(shù)據(jù)科學(xué)家應(yīng)具備的素質(zhì)
i. 領(lǐng)域知識(shí)
ii. 對(duì)于科學(xué)方法的清晰理解:目標(biāo)、假設(shè)、驗(yàn)證、透明度
iii. 擅長(zhǎng)數(shù)學(xué)與統(tǒng)計(jì)學(xué)
iv. 求知欲與極強(qiáng)的思考能力
v. 圖形化描述與溝通能力
vi. 高級(jí)計(jì)算與數(shù)據(jù)管理能力
學(xué)術(shù)背景
如果你想進(jìn)入學(xué)校,通過(guò)學(xué)習(xí)成為一個(gè)數(shù)據(jù)科學(xué)家,可選擇的課程如下:
1. 應(yīng)用數(shù)學(xué)
2. 計(jì)算機(jī)科學(xué)
3. 經(jīng)濟(jì)學(xué)
4. 統(tǒng)計(jì)學(xué)
5. 工程學(xué)
從數(shù)據(jù)科學(xué)中受益的行業(yè)包括:
- 金融服務(wù)業(yè)
- 電信業(yè)
- 信息技術(shù)
- 制造業(yè)
- 公共事業(yè)
- 公共衛(wèi)生
- 市場(chǎng)