99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀想進(jìn)行數(shù)據(jù)科學(xué)項(xiàng)目卻沒有數(shù)據(jù)集?25個(gè)數(shù)據(jù)集網(wǎng)站匯總
想進(jìn)行數(shù)據(jù)科學(xué)項(xiàng)目卻沒有數(shù)據(jù)集?25個(gè)數(shù)據(jù)集網(wǎng)站匯總
2017-06-27
收藏
前言

如果用一個(gè)句子總結(jié)學(xué)習(xí)數(shù)據(jù)科學(xué)的本質(zhì),那就是:

學(xué)習(xí)數(shù)據(jù)科學(xué)的最佳方法就是應(yīng)用數(shù)據(jù)科學(xué)。

如果你是初學(xué)者,那么每完成一個(gè)項(xiàng)目你的能力就會(huì)大大提高。如果你是有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)從業(yè)者,那么你應(yīng)該懂這個(gè)道理。

但是,當(dāng)我向人們給出這個(gè)建議時(shí),他們通常會(huì)問:我可以在哪里獲得練習(xí)的數(shù)據(jù)集呢? 他們沒有意識(shí)到存在大量開放的數(shù)據(jù)集可使用。他們沒有意識(shí)到通過這些項(xiàng)目,能夠不斷學(xué)習(xí),從而促進(jìn)自己的職業(yè)發(fā)展。

如果你認(rèn)為這符合你的情況,那么你來對(duì)地方了!本文將列出一些數(shù)據(jù)集網(wǎng)站、資源的列表,你可以從使用當(dāng)中的數(shù)據(jù)來進(jìn)行自己的 pet project,甚至創(chuàng)造自己的產(chǎn)品。
 
如何使用這些資源?

如何使用這些數(shù)據(jù)源是沒有限制的。唯一限制你的是創(chuàng)造力和實(shí)際應(yīng)用。

使用它們的最簡(jiǎn)單方法是進(jìn)行數(shù)據(jù)項(xiàng)目并發(fā)布到網(wǎng)上。這不僅可以提高數(shù)據(jù)和可視化技能,還可以改善你的結(jié)構(gòu)化思維。

另一方面,如果你打算或正在處理基于數(shù)據(jù)的產(chǎn)品,這些數(shù)據(jù)集可以通過提供新的輸入數(shù)據(jù)來增加產(chǎn)品的活力。

我已經(jīng)將這些資源分類,從簡(jiǎn)單,通用和易于處理的數(shù)據(jù)集,到大型、行業(yè)相關(guān)的數(shù)據(jù)集。接著,介紹用于特定目的的數(shù)據(jù)集:文本挖掘,圖像分類,推薦引擎等。

(友情提示:以下網(wǎng)站均需翻墻)

1. 簡(jiǎn)單、通用的數(shù)據(jù)集

? data.gov  
( https://www.data.gov/ )

美國(guó)政府公開數(shù)據(jù)。該網(wǎng)站在發(fā)布時(shí)包含超過 19 萬個(gè)數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)包括氣候,教育,能源,金融等領(lǐng)域的數(shù)據(jù)。





? data.gov.in 
( https://data.gov.in/ )

印度政府公開數(shù)據(jù)??梢圆檎腋餍袠I(yè),氣候,醫(yī)療保健等數(shù)據(jù)。還可以在這里得到一些可視化的靈感。根據(jù)所在國(guó)家,你也可以從其他幾個(gè)網(wǎng)站上查看類似的網(wǎng)站。




? World Bank
( http://data.worldbank.org/ )  
世界銀行的開放數(shù)據(jù)。該平臺(tái)提供 Open Data Catalog,世界發(fā)展指數(shù),教育指數(shù)等幾個(gè)工具。
 
? RBI  
( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲(chǔ)備銀行提供的數(shù)據(jù)。包括國(guó)際收支,銀行業(yè)務(wù)和一些產(chǎn)品使用的貨幣市場(chǎng)運(yùn)作指標(biāo)。
 
? Five Thirty Eight Datasets 
( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調(diào)查分析,政治,經(jīng)濟(jì)與體育的博客。該數(shù)據(jù)集為 Five Thirty Eight Datasets 使用的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集包括數(shù)據(jù),解釋數(shù)據(jù)的字典和Five Thirty Eight 文章的鏈接。如果你想學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,不能錯(cuò)過。

2. 大型數(shù)據(jù)集

? Amazon Web Services(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )

亞馬遜提供了一些大數(shù)據(jù)集,可以在他們的平臺(tái)或本地計(jì)算機(jī)上使用。還可以通過 EMR,使用 EC2 和 Hadoop 在云端分析數(shù)據(jù)。亞馬遜的熱門數(shù)據(jù)集包括完整的 Enron 電子郵件數(shù)據(jù)集,Google Books n-gram,NASA NEX 數(shù)據(jù)集,百萬歌曲數(shù)據(jù)集等。





? Google datasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數(shù)據(jù)集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫(kù)的數(shù)據(jù),Hacker News 的所有故事和評(píng)論。
 
? Youtube labeled Video Dataset
( https://research.google.com/youtube8m/ )

幾個(gè)月前,谷歌研究小組發(fā)布了 YouTube 標(biāo)簽數(shù)據(jù)集,該數(shù)據(jù)集由 800 萬個(gè) YouTube 視頻 ID 和 4800 個(gè)視覺實(shí)體的相關(guān)標(biāo)簽組成。這來自數(shù)十億幀的預(yù)先計(jì)算和最先進(jìn)的視覺功能。




 
3. 預(yù)測(cè)建模與機(jī)器學(xué)習(xí)數(shù)據(jù)集

? UCI Machine Learning Repository
( https://archive.ics.uci.edu/ml/datasets.html ) 

UCI 機(jī)器學(xué)習(xí)存儲(chǔ)庫(kù)顯然是最著名的數(shù)據(jù)存儲(chǔ)庫(kù)。如果你正在尋找與機(jī)器學(xué)習(xí)庫(kù)相關(guān)的數(shù)據(jù)集,那么這是不可錯(cuò)過的資源。當(dāng)中包括各種各樣的數(shù)據(jù)集,從泰坦尼克號(hào)的幸存數(shù)據(jù),到最近的空氣質(zhì)量、GPS 軌跡等待。存儲(chǔ)庫(kù)包含超過 350 個(gè)數(shù)據(jù)集,其中包含域名,問題目的(分類/回歸)等標(biāo)簽。你可以使用這些過濾器來確定需要的數(shù)據(jù)。





?  Kaggle 
( https://www.kaggle.com/datasets ) 

Kaggle 推出了一個(gè)平臺(tái),人們上傳數(shù)據(jù)集,其他社區(qū)成員可以投票并在其上運(yùn)行腳本。共有 350 多個(gè)數(shù)據(jù)集 ,特征數(shù)據(jù)集超過 200 個(gè)。





? Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
你可以參與和下載我們的練習(xí)問題以及黑客馬拉松問題的數(shù)據(jù)集。數(shù)據(jù)集基于現(xiàn)實(shí)生活中的行業(yè)問題,并且相對(duì)較小,因?yàn)樗鼈兪轻槍?duì) 2-7 天的黑客馬拉松活動(dòng)。



? Quandl 
( https://www.quandl.com/ )
Quandl 通過起網(wǎng)站、API 或一些工具的直接集成提供了不同來源的財(cái)務(wù)、經(jīng)濟(jì)和替代數(shù)據(jù)。他們的數(shù)據(jù)集分為開放和付費(fèi)。所有開放數(shù)據(jù)集為免費(fèi),但高級(jí)數(shù)據(jù)集需要付費(fèi)。通過搜索仍然可以在平臺(tái)上找到優(yōu)質(zhì)數(shù)據(jù)集。例如,來自印度的證券交易所數(shù)據(jù)是免費(fèi)的。



? Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)競(jìng)賽。

? Driven Data
( https://www.drivendata.org/ )
Driven Data 發(fā)現(xiàn)運(yùn)用數(shù)據(jù)科學(xué)帶來積極社會(huì)影響的現(xiàn)實(shí)問題。然后,他們?yōu)閿?shù)據(jù)科學(xué)家組織在線模擬競(jìng)賽,從而開發(fā)出最好的模型來解決這些問題。



4. 圖像分類數(shù)據(jù)集

? The MNIST Database 
( http://yann.lecun.com/exdb/mnist/ )
最流行的使用手寫數(shù)字的圖像識(shí)別的數(shù)據(jù)集。包括 6 萬個(gè)火車示例和一個(gè) 1 萬個(gè)示例的測(cè)試集。這通常是進(jìn)行圖像識(shí)別的第一個(gè)數(shù)據(jù)集。
 
? Chars74K 
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
如果你已經(jīng)掌握手寫數(shù)字,可以進(jìn)一步使用該數(shù)據(jù)集。當(dāng)中包括自然圖像中的字符識(shí)別,包含 74,000 個(gè)圖像。 

? Frontal Face Images 
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經(jīng)完成了前兩個(gè)項(xiàng)目,并且能夠識(shí)別數(shù)字和字符,那么在圖像識(shí)別的下一個(gè)挑戰(zhàn)就是正面臉部圖像。這些圖像由 CMU & MIT 收集,并排列在四個(gè)文件夾中。

? ImageNet 
( http://image-net.org/ )
是時(shí)候構(gòu)建一些通用的東西了。根據(jù) WordNet 層次的圖像數(shù)據(jù)庫(kù)(目前僅為名詞)。層次結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)都被描述為數(shù)百個(gè)圖像。目前,這個(gè)集合平均每個(gè)節(jié)點(diǎn)有超過 500 個(gè)圖像,并且在增加中。
 
5. 文本分類數(shù)據(jù)集

? Spam – Non Spam 
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區(qū)分短信是否為垃圾郵件是一個(gè)有趣的問題。你需要構(gòu)建一個(gè)分類器將短信進(jìn)行分類。
 
? Twitter Sentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數(shù)據(jù)集包含 1578627 個(gè)分類推文,每行被標(biāo)記為1的積極情緒,0位負(fù)面情緒。數(shù)據(jù)依次基于 Kaggle 比賽和 Nick Sanders 的分析。
 
? Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
本網(wǎng)站提供電影評(píng)論文件的集合,標(biāo)注其總體情緒極性(正面或負(fù)面)和主觀評(píng)分(例如“兩星半”)等。
 
6. 推薦引擎的數(shù)據(jù)集

? MovieLens  
( https://grouplens.org/ )
MovieLens 是一個(gè)幫助人們查找電影的網(wǎng)站。它有成千上萬的注冊(cè)用戶。他們進(jìn)行自動(dòng)內(nèi)容推薦,推薦界面,基于標(biāo)簽的推薦頁(yè)面等在線實(shí)驗(yàn)。這些數(shù)據(jù)集可供下載,可用于創(chuàng)建自己的推薦系統(tǒng)。
 
? Jester  
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統(tǒng)
 
7. 來自各種來源的數(shù)據(jù)集網(wǎng)站

? KDNuggets 
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數(shù)據(jù)集頁(yè)面一直是人們搜索數(shù)據(jù)集的參考。列表全面,但是某些來源不再提供數(shù)據(jù)集。因此,需要謹(jǐn)慎選擇數(shù)據(jù)集和來源。
 
? Awesome Public Datasets 
(https://github.com/caesar0301/awesome-public-datasets)
具有按域分類的數(shù)據(jù)集列表的 GitHub 存儲(chǔ)庫(kù)。數(shù)據(jù)集被整齊地劃分在不同的領(lǐng)域,然而沒有關(guān)于存儲(chǔ)庫(kù)本身的數(shù)據(jù)集的描述
 
? Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由于這是一個(gè)社區(qū)驅(qū)動(dòng)的論壇,可能與之前的兩個(gè)數(shù)據(jù)源相比會(huì)一些混亂。但是,你可以根據(jù)熱度和投票來對(duì)數(shù)據(jù)集進(jìn)行排序,以查看最流行的數(shù)據(jù)集。另外,它還有一些有趣的數(shù)據(jù)集和討論。

結(jié)語

我希望這份資源清單對(duì)那些想做項(xiàng)目的人有所幫助。這絕對(duì)是一個(gè)金礦。

ref:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/


原作者 Kunal Jain
編譯  Mika
本文為 CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權(quán)



數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }