国产熟女出轨做受的叫床声,人人爽天天碰天天躁夜夜躁,51vv社区视频在线视频观看

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)科學(xué)能回答什么樣的問題

2015-11-11

數(shù)據(jù)科學(xué)能回答什么樣的問題

機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的發(fā)動機(jī)。每種機(jī)器學(xué)習(xí)方法（也稱為算法）獲取數(shù)據(jù)，反復(fù)咀嚼，輸出結(jié)果。機(jī)器學(xué)習(xí)算法負(fù)責(zé)數(shù)據(jù)科學(xué)里最難以解釋又最有趣的部分。數(shù)學(xué)的魔法在此發(fā)生。

機(jī)器學(xué)習(xí)算法可以根據(jù)它們所回答的問題分成幾組。這種分組能夠在你提煉問題時幫助思考。

A類還是B類？

這組算法被稱為二類分類( two-class classification )。適用于任何有兩個可能選項(xiàng)的問題：是或否、開或關(guān)、吸煙或不吸煙、買或不買。許多數(shù)據(jù)科學(xué)問題看起來是這種形式，或者可以被組織成這種形式。這是最簡單也最常提到的數(shù)據(jù)科學(xué)問題。幾個典型的例子：

這名顧客會不會繼續(xù)訂閱？
這圖片上是一只貓還是一只狗？
這名顧客會不會點(diǎn)擊頂部鏈接？
在接下來的一千英里輪胎會不會報(bào)廢？
5美元打折券和25%打折券哪個能吸引更多回頭客？

A類、B類、C類還是D類？

這組算法被稱作多類分類( multi-class classification )。如同名字所示，這組算法回答有多個可能答案的問題：哪種口味、哪個人、哪個部分、哪個公司、哪位候選人。大多數(shù)多類分類算法只是二類分類算法的延伸。一些典型例子如下：

這圖片上是哪種動物？
這種雷達(dá)信號是哪種飛行器引起的？
這篇新聞是什么主題？
這條推特是什么情緒？
這段錄音里的說話人是誰？

是否異常？

這組算法進(jìn)行異常檢測（ anomaly detection ）。它們識別出異常的數(shù)據(jù)點(diǎn)。如果仔細(xì)留意，你會發(fā)現(xiàn)異常檢測看起來像二元分類問題。問題可以用“是”或“否”來回答。不同之處時，二元分類假定你已經(jīng)有一些“是”/“不是”的案例。異常檢測則不是這樣。當(dāng)你所尋找的東西如此稀少（如設(shè)備失靈），以至于沒能收集太多有關(guān)案例時，異常檢測尤其有用。當(dāng)“不正?！卑喾N情況時（如信用卡詐騙），異常檢測也很有幫助。一些常見的異常檢測問題：

這個壓力讀數(shù)是否異常？
這則網(wǎng)上信息有代表性嗎？
這個購物組合是否與此消費(fèi)者之前所做的非常不同？
這些電壓在這個季節(jié)的這個時間是否正常？

數(shù)據(jù)科學(xué)

多少？

當(dāng)你想求一個數(shù)字，而不是一個分級或類別，此時要用到的是回歸。

下周二會是什么溫度？
我第四季度在葡萄牙的銷售額會是多少？
在接下來半個小時，我的風(fēng)力發(fā)電廠會有多少千瓦的需求？
下周我會獲得多少新粉絲？
這種型號的軸承，每一千個中有多少能工作超過一萬小時？

通常來說，回歸算法給出一個實(shí)值作為答案。答案可能會有小數(shù)或負(fù)數(shù)。對于一些問題，尤其是以“多少個”開頭的問題，負(fù)數(shù)需要被解讀為0，分?jǐn)?shù)要取近似整數(shù)。

多類分類作為回歸問題

有時看似多元分類的問題事實(shí)上比較適合做回歸。比如，“哪個新聞故事對讀者來說更有趣？”看似在詢問類別——新聞故事清單里的一個條目。然而，問題可以重新組織成“對于讀者來說，清單上的每個故事在多大程度上有趣？”給每篇文章一個數(shù)字作為分?jǐn)?shù)。之后就是一個簡單的識別最高分文章問題。這種類型的問題通常以排名或比較形式出現(xiàn)。

“我船隊(duì)的哪個貨艙最需要維修？”可以被轉(zhuǎn)述為“我船隊(duì)的貨艙各在多大程度上需要維修？”
“我的顧客中，哪5%明年會轉(zhuǎn)向我的競爭對手？可以被轉(zhuǎn)述為“我的每個客戶明年各有多大可能轉(zhuǎn)向我的競爭對手？”

二類分類作為回歸問題

并不奇怪，二元分類也可以被轉(zhuǎn)述為回歸問題。（事實(shí)上，一些算法私下把所有二元分類問題轉(zhuǎn)化為回歸。）當(dāng)一個案例可能屬于A或B，或有一定幾率屬于任意一方時，這種方法尤其有幫助。當(dāng)答案可能為部分的“是”或“否”，可能是“開”也可能是“關(guān)”，回歸能夠體現(xiàn)這種情況。這種問題通常由“多大可能”或“多大比例”開頭：

這個用戶有多大可能點(diǎn)擊我的廣告？
這個老虎機(jī)上多大比例的拉動導(dǎo)致了吐錢？
這個員工有多大可能是一個內(nèi)部安全隱患？
今天的航班有多大比例準(zhǔn)時起飛？

你可能已經(jīng)猜到，二元分類、多類分類、異常檢測和回歸全部是緊密相關(guān)的。它們屬于同一個延伸的家庭，監(jiān)督學(xué)習(xí)。它們有許多相同之處，問題通常能被修改為不止一種形式。它們的共性是，它們都是通過一組加了標(biāo)簽的樣本建立（被稱作“訓(xùn)練”的過程），之后它們能對于無標(biāo)簽的樣本賦予值或類別（被稱作“打分”的過程）。

無監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的算法家族則有完全不同的數(shù)據(jù)科學(xué)問題。

數(shù)據(jù)是如何構(gòu)成？

有關(guān)數(shù)據(jù)如何構(gòu)成的問題屬于無監(jiān)督學(xué)習(xí)。有許多技術(shù)試圖提煉數(shù)據(jù)的結(jié)構(gòu)。其中一組算法進(jìn)行聚類，也被稱作分塊、分組、聚群、分隔等。它們試圖把一個數(shù)據(jù)集分為一些直覺式的區(qū)塊。聚類與監(jiān)督學(xué)習(xí)的不同之處，是沒有數(shù)字或名稱可以告訴你數(shù)據(jù)點(diǎn)屬于哪個類別，這些分組代表什么，或應(yīng)該有多少個組。如果監(jiān)督學(xué)習(xí)是在夜空群星中挑選出星球，那么聚類就是在構(gòu)造星座。聚類試圖把數(shù)據(jù)分成自然的“叢”，以便作為分析師的人類能更輕易地向他人解釋。聚類一貫依賴于一個緊密度或相似性的定義，如智商差異、相同基因?qū)蝤B瞰直線距離。聚類問題都試著把數(shù)據(jù)分解成近乎一致的群組。

哪些顧客對農(nóng)產(chǎn)品有相似的喜好？
哪些觀眾喜歡同類的電影？
這個變電所在一周的哪些日子有相似的用電需求？
用什么辦法把這些文件自然地分成五類？

另一組無監(jiān)督學(xué)習(xí)算法叫維度歸約(dimensionality reduction)技術(shù)。維度歸約是另一種簡化數(shù)據(jù)的方式，讓數(shù)據(jù)能更容易傳播，更快速計(jì)算，更容易存儲。

在根本上，維度歸約都是在創(chuàng)造一種描述數(shù)據(jù)點(diǎn)的簡易方法。一個簡單的例子是GPA學(xué)分績點(diǎn)。一個大學(xué)生的學(xué)術(shù)能力，由數(shù)十個課程的數(shù)百場考試和數(shù)千個作業(yè)衡量。每個作業(yè)在某種程度上反映學(xué)生在多大程度上理解課程資料，但一個完整的作業(yè)清單任何招聘者來說都消化不了。幸運(yùn)的是，你可以創(chuàng)造一個簡易方法把所有分?jǐn)?shù)平均在一起?？窟@個大型的簡化可以蒙混過關(guān)，因?yàn)樵谝豁?xiàng)作業(yè)/課程表現(xiàn)突出的學(xué)生通常在其他作業(yè)/課程依然如此。通過使用學(xué)分績點(diǎn)而不是整個清單，豐富性無疑會受到損失。比如，你不會知道是否這學(xué)生更擅長數(shù)學(xué)／英文，以及是否她在編程家庭作業(yè)中比隨堂測驗(yàn)表現(xiàn)更好。但卻收獲了簡單，使得談?wù)摵捅容^學(xué)生能力變得容易許多。

維度歸約相關(guān)問題大多有關(guān)傾向于共同變化的因素。

直升機(jī)的哪些傳感器傾向于共同（或不共同）變化？
成功的CEO有哪些共同的領(lǐng)導(dǎo)實(shí)踐？
哪些是整個美國汽油價格變化的最常見模式？
這個文件集中哪些詞組傾向于一同出現(xiàn)？（它們是有關(guān)什么主題？）

如果目標(biāo)是總結(jié)、簡化、壓縮或提煉一些數(shù)據(jù)，要選用的工具就是維度歸約和聚類。

我現(xiàn)在該做什么？

第三個機(jī)器學(xué)習(xí)算法家族重視采取行動。它們被稱為增強(qiáng)學(xué)習(xí)(reinforcement learning)算法。回歸算法能預(yù)測出明天的最高氣溫是37°C，但它無法決定對此做些什么。增強(qiáng)學(xué)習(xí)算法邁向下一步并選擇一種行為，如，趁天氣還涼爽提前為辦公樓高層降溫。

增強(qiáng)學(xué)習(xí)的靈感最早來源于老鼠和人類大腦如何對獎懲做出反應(yīng)。它們采取行動，努力獲得能帶來最高獎勵的行為。你提供給它們一系列可能的選項(xiàng)。它們需要對于某個行為獲得反饋，判斷此行為是好或中性或大錯特錯。

通常增強(qiáng)學(xué)習(xí)算法很適合需要在無人類監(jiān)督下做出許多小決策的自動化系統(tǒng)。電梯、供熱、降溫和燈光系統(tǒng)是不錯的選擇。增強(qiáng)學(xué)習(xí)最初是被開發(fā)用于控制機(jī)器人，以便所有東西能夠自動，不管是偵察無人機(jī)還是真空吸塵器。增強(qiáng)學(xué)習(xí)回答的問題一貫關(guān)于該采取什么行為，盡管這行為通常是由機(jī)器執(zhí)行。

我該把這則廣告放置在網(wǎng)頁什么位置，以使瀏覽者最大可能打開它？
我是該把溫度調(diào)高、調(diào)低還是維持現(xiàn)狀？
我是該在打掃一遍起居室還是繼續(xù)充電？
我現(xiàn)在該買多少股這個股票？
面對黃燈，我是該繼續(xù)以這個速度行駛還是剎車，或者加速？

增強(qiáng)學(xué)習(xí)通常需要比其他算法做更多努力，因?yàn)樗c系統(tǒng)的其他部分緊密相連。這里的優(yōu)勢是多數(shù)增強(qiáng)學(xué)習(xí)算法可以在沒有數(shù)據(jù)的情況下開始工作。它們在運(yùn)行中收集數(shù)據(jù)，從嘗試和錯誤中學(xué)習(xí)。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；