99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展數(shù)據(jù)科學(xué)能回答什么樣的問題
數(shù)據(jù)科學(xué)能回答什么樣的問題
2015-11-11
收藏

數(shù)據(jù)科學(xué)能回答什么樣的問題


機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的發(fā)動機(jī)。每種機(jī)器學(xué)習(xí)方法(也稱為算法)獲取數(shù)據(jù),反復(fù)咀嚼,輸出結(jié)果。機(jī)器學(xué)習(xí)算法負(fù)責(zé)數(shù)據(jù)科學(xué)里最難以解釋又最有趣的部分。數(shù)學(xué)的魔法在此發(fā)生。

機(jī)器學(xué)習(xí)算法可以根據(jù)它們所回答的問題分成幾組。這種分組能夠在你提煉問題時幫助思考。

A類還是B類?

這組算法被稱為二類分類( two-class classification )。適用于任何有兩個可能選項(xiàng)的問題:是或否、開或關(guān)、吸煙或不吸煙、買或不買。許多數(shù)據(jù)科學(xué)問題看起來是這種形式,或者可以被組織成這種形式。這是最簡單也最常提到的數(shù)據(jù)科學(xué)問題。幾個典型的例子:

  • 這名顧客會不會繼續(xù)訂閱?
  • 這圖片上是一只貓還是一只狗?
  • 這名顧客會不會點(diǎn)擊頂部鏈接?
  • 在接下來的一千英里輪胎會不會報(bào)廢?
  • 5美元打折券和25%打折券哪個能吸引更多回頭客?

A類、B類、C類還是D類?

這組算法被稱作多類分類( multi-class classification )。如同名字所示,這組算法回答有多個可能答案的問題:哪種口味、哪個人、哪個部分、哪個公司、哪位候選人。大多數(shù)多類分類算法只是二類分類算法的延伸。一些典型例子如下:

  • 這圖片上是哪種動物?
  • 這種雷達(dá)信號是哪種飛行器引起的?
  • 這篇新聞是什么主題?
  • 這條推特是什么情緒?
  • 這段錄音里的說話人是誰?

是否異常?

這組算法進(jìn)行異常檢測( anomaly detection )。它們識別出異常的數(shù)據(jù)點(diǎn)。如果仔細(xì)留意,你會發(fā)現(xiàn)異常檢測看起來像二元分類問題。問題可以用“是”或“否”來回答。不同之處時,二元分類假定你已經(jīng)有一些“是”/“不是”的案例。異常檢測則不是這樣。當(dāng)你所尋找的東西如此稀少(如設(shè)備失靈),以至于沒能收集太多有關(guān)案例時,異常檢測尤其有用。 當(dāng)“不正?!卑喾N情況時(如信用卡詐騙),異常檢測也很有幫助。一些常見的異常檢測問題:

  • 這個壓力讀數(shù)是否異常?
  • 這則網(wǎng)上信息有代表性嗎?
  • 這個購物組合是否與此消費(fèi)者之前所做的非常不同?
  • 這些電壓在這個季節(jié)的這個時間是否正常?

數(shù)據(jù)科學(xué)

多少?

當(dāng)你想求一個數(shù)字,而不是一個分級或類別,此時要用到的是回歸。

  • 下周二會是什么溫度?
  • 我第四季度在葡萄牙的銷售額會是多少?
  • 在接下來半個小時,我的風(fēng)力發(fā)電廠會有多少千瓦的需求?
  • 下周我會獲得多少新粉絲?
  • 這種型號的軸承,每一千個中有多少能工作超過一萬小時?

通常來說,回歸算法給出一個實(shí)值作為答案。答案可能會有小數(shù)或負(fù)數(shù)。對于一些問題,尤其是以“多少個”開頭的問題,負(fù)數(shù)需要被解讀為0,分?jǐn)?shù)要取近似整數(shù)。

多類分類作為回歸問題

有時看似多元分類的問題事實(shí)上比較適合做回歸。比如,“哪個新聞故事對讀者來說更有趣?”看似在詢問類別——新聞故事清單里的一個條目。然而,問題可以重新組織成“對于讀者來說,清單上的每個故事在多大程度上有趣?”給每篇文章一個數(shù)字作為分?jǐn)?shù)。之后就是一個簡單的識別最高分文章問題。這種類型的問題通常以排名或比較形式出現(xiàn)。

  • “我船隊(duì)的哪個貨艙最需要維修?”可以被轉(zhuǎn)述為“我船隊(duì)的貨艙各在多大程度上需要維修?”
  • “我的顧客中,哪5%明年會轉(zhuǎn)向我的競爭對手?可以被轉(zhuǎn)述為“我的每個客戶明年各有多大可能轉(zhuǎn)向我的競爭對手?”

二類分類作為回歸問題

并不奇怪,二元分類也可以被轉(zhuǎn)述為回歸問題。(事實(shí)上,一些算法私下把所有二元分類問題轉(zhuǎn)化為回歸。)當(dāng)一個案例可能屬于A或B,或有一定幾率屬于任意一方時,這種方法尤其有幫助。當(dāng)答案可能為部分的“是”或“否”,可能是“開”也可能是“關(guān)”,回歸能夠體現(xiàn)這種情況。這種問題通常由“多大可能”或“多大比例”開頭:

  • 這個用戶有多大可能點(diǎn)擊我的廣告?
  • 這個老虎機(jī)上多大比例的拉動導(dǎo)致了吐錢?
  • 這個員工有多大可能是一個內(nèi)部安全隱患?
  • 今天的航班有多大比例準(zhǔn)時起飛?

你可能已經(jīng)猜到,二元分類、多類分類、異常檢測和回歸全部是緊密相關(guān)的。它們屬于同一個延伸的家庭,監(jiān)督學(xué)習(xí)。它們有許多相同之處,問題通常能被修改為不止一種形式。它們的共性是,它們都是通過一組加了標(biāo)簽的樣本建立(被稱作“訓(xùn)練”的過程),之后它們能對于無標(biāo)簽的樣本賦予值或類別(被稱作“打分”的過程)。

無監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的算法家族則有完全不同的數(shù)據(jù)科學(xué)問題。

數(shù)據(jù)是如何構(gòu)成?

有關(guān)數(shù)據(jù)如何構(gòu)成的問題屬于無監(jiān)督學(xué)習(xí)。有許多技術(shù)試圖提煉數(shù)據(jù)的結(jié)構(gòu)。其中一組算法進(jìn)行聚類,也被稱作分塊、分組、聚群、分隔等。它們試圖把一個數(shù)據(jù)集分為一些直覺式的區(qū)塊。聚類與監(jiān)督學(xué)習(xí)的不同之處,是沒有數(shù)字或名稱可以告訴你數(shù)據(jù)點(diǎn)屬于哪個類別,這些分組代表什么,或應(yīng)該有多少個組。如果監(jiān)督學(xué)習(xí)是在夜空群星中挑選出星球,那么聚類就是在構(gòu)造星座。聚類試圖把數(shù)據(jù)分成自然的“叢”,以便作為分析師的人類能更輕易地向他人解釋。聚類一貫依賴于一個緊密度或相似性的定義,如智商差異、相同基因?qū)蝤B瞰直線距離。聚類問題都試著把數(shù)據(jù)分解成近乎一致的群組。

  • 哪些顧客對農(nóng)產(chǎn)品有相似的喜好?
  • 哪些觀眾喜歡同類的電影?
  • 這個變電所在一周的哪些日子有相似的用電需求?
  • 用什么辦法把這些文件自然地分成五類?

另一組無監(jiān)督學(xué)習(xí)算法叫維度歸約(dimensionality reduction)技術(shù)。維度歸約是另一種簡化數(shù)據(jù)的方式,讓數(shù)據(jù)能更容易傳播,更快速計(jì)算,更容易存儲。

在根本上,維度歸約都是在創(chuàng)造一種描述數(shù)據(jù)點(diǎn)的簡易方法。一個簡單的例子是GPA學(xué)分績點(diǎn)。一個大學(xué)生的學(xué)術(shù)能力,由數(shù)十個課程的數(shù)百場考試和數(shù)千個作業(yè)衡量。每個作業(yè)在某種程度上反映學(xué)生在多大程度上理解課程資料,但一個完整的作業(yè)清單任何招聘者來說都消化不了。幸運(yùn)的是,你可以創(chuàng)造一個簡易方法把所有分?jǐn)?shù)平均在一起??窟@個大型的簡化可以蒙混過關(guān),因?yàn)樵谝豁?xiàng)作業(yè)/課程表現(xiàn)突出的學(xué)生通常在其他作業(yè)/課程依然如此。通過使用學(xué)分績點(diǎn)而不是整個清單,豐富性無疑會受到損失。 比如,你不會知道是否這學(xué)生更擅長數(shù)學(xué)/英文,以及是否她在編程家庭作業(yè)中比隨堂測驗(yàn)表現(xiàn)更好。但卻收獲了簡單,使得談?wù)摵捅容^學(xué)生能力變得容易許多。

維度歸約相關(guān)問題大多有關(guān)傾向于共同變化的因素。

  • 直升機(jī)的哪些傳感器傾向于共同(或不共同)變化?
  • 成功的CEO有哪些共同的領(lǐng)導(dǎo)實(shí)踐?
  • 哪些是整個美國汽油價格變化的最常見模式?
  • 這個文件集中哪些詞組傾向于一同出現(xiàn)?(它們是有關(guān)什么主題?)

如果目標(biāo)是總結(jié)、簡化、壓縮或提煉一些數(shù)據(jù),要選用的工具就是維度歸約和聚類。

我現(xiàn)在該做什么?

第三個機(jī)器學(xué)習(xí)算法家族重視采取行動。它們被稱為增強(qiáng)學(xué)習(xí)(reinforcement learning)算法。回歸算法能預(yù)測出明天的最高氣溫是37°C,但它無法決定對此做些什么。增強(qiáng)學(xué)習(xí)算法邁向下一步并選擇一種行為,如,趁天氣還涼爽提前為辦公樓高層降溫。

增強(qiáng)學(xué)習(xí)的靈感最早來源于老鼠和人類大腦如何對獎懲做出反應(yīng)。它們采取行動,努力獲得能帶來最高獎勵的行為。你提供給它們一系列可能的選項(xiàng)。它們需要對于某個行為獲得反饋,判斷此行為是好或中性或大錯特錯。

通常增強(qiáng)學(xué)習(xí)算法很適合需要在無人類監(jiān)督下做出許多小決策的自動化系統(tǒng)。電梯、供熱、降溫和燈光系統(tǒng)是不錯的選擇。增強(qiáng)學(xué)習(xí)最初是被開發(fā)用于控制機(jī)器人,以便所有東西能夠自動,不管是偵察無人機(jī)還是真空吸塵器。增強(qiáng)學(xué)習(xí)回答的問題一貫關(guān)于該采取什么行為,盡管這行為通常是由機(jī)器執(zhí)行。

  • 我該把這則廣告放置在網(wǎng)頁什么位置,以使瀏覽者最大可能打開它?
  • 我是該把溫度調(diào)高、調(diào)低還是維持現(xiàn)狀?
  • 我是該在打掃一遍起居室還是繼續(xù)充電?
  • 我現(xiàn)在該買多少股這個股票?
  • 面對黃燈,我是該繼續(xù)以這個速度行駛還是剎車,或者加速?

增強(qiáng)學(xué)習(xí)通常需要比其他算法做更多努力,因?yàn)樗c系統(tǒng)的其他部分緊密相連。這里的優(yōu)勢是多數(shù)增強(qiáng)學(xué)習(xí)算法可以在沒有數(shù)據(jù)的情況下開始工作。它們在運(yùn)行中收集數(shù)據(jù),從嘗試和錯誤中學(xué)習(xí)。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }