
我想查找某一方面的大數(shù)據(jù)。怎么辦:如何操作,上哪家網(wǎng)站,使用什么軟件等。 我需要北京市市內(nèi)貨運(yùn)出租9月份的營(yíng)運(yùn)數(shù)據(jù)如何操作!
題主把問題改成了“我需要北京市市內(nèi)貨運(yùn)出租9月份的營(yíng)運(yùn)數(shù)據(jù)如何操作”,這和想象中的學(xué)術(shù)問題不一樣啊摔!
先潑一盆冷水:題主要做好準(zhǔn)備花錢買這個(gè)數(shù)據(jù)。
可能的來源:北京市各種出租車公司(貨運(yùn)出租公司?),打車APP(如果是客運(yùn)出租的話)、市場(chǎng)調(diào)查公司、自己花錢去打車跟自己聊(也是針對(duì)客運(yùn))。 準(zhǔn)確度依次下降,麻煩程度依次上升,為了得到同樣準(zhǔn)確的估計(jì),花費(fèi)大概會(huì)依次上升。
不太可能的來源:互聯(lián)網(wǎng)。
以及為什么這種數(shù)據(jù)要錢:
1. 采集要錢。對(duì)于出租車公司來說,這個(gè)采集過程相對(duì)簡(jiǎn)單,因?yàn)橛?jì)價(jià)器都是他們的,他們隨時(shí)知道自己手下出租車的運(yùn)營(yíng)狀況,他們的花費(fèi)基本上是公司的運(yùn)營(yíng)費(fèi)用。對(duì)于打車 APP來說,他們用APP收集,相比出租車公司來說,又多了一份市場(chǎng)推廣的成本。市場(chǎng)調(diào)查公司是靠收集數(shù)據(jù)為生的,所以不管數(shù)據(jù)用什么渠道花多少錢能得到,肯定要加價(jià)買給你——之所以他們能做這個(gè)生意是有時(shí)候你沒有數(shù)據(jù)的渠道,有時(shí)候你沒有那么多人工去實(shí)地調(diào)查。
2. 數(shù)據(jù)本身的營(yíng)利潛力。看到這個(gè)數(shù)據(jù)能做的事情太多了,我可以知道什么地方打車不方便、從哪到哪的客流大、什么時(shí)間哪里的打車需求大、接什么單子跑得快、什么路線容易堵車等等等等,這都是大好的賺錢機(jī)會(huì)啊!
當(dāng)然了,如果題主有親戚朋友在出租車公司工作(最好是管理崗/老司機(jī))就主動(dòng)串串門套套近乎吧,上面這些都當(dāng)我沒說。
====以下是原答案的分割線=====
謝邀。題主起碼來點(diǎn)提示“某一方面的大數(shù)據(jù)”是指什么,另外您的應(yīng)用場(chǎng)景是什么吧,不然我只能告訴你請(qǐng)上http://google.com,用google chrome/mozilla firefox等軟件?;蛘呷绻胝f“我想要X銀行的日交易詳情用來預(yù)測(cè)股票走勢(shì)”,那我只能建議您找找黑客網(wǎng)站,使用黑客工具了——不保證效果且后果自負(fù)。
說正經(jīng)的,如果題主想自己采集大數(shù)據(jù)(其實(shí)我猜不是,那就去找現(xiàn)成數(shù)據(jù)集吧,,以下可以參考:
1. 圖片/視覺:Google Images。直接輸入搜索詞,然后人工把一些符合目標(biāo)的圖片下下來。這是Caltech 101/256和ImageNet的主要采集方式
2. 文本/自然語言處理:
2.1. Wikipedia。Wikipedia經(jīng)常發(fā)布整個(gè)網(wǎng)站的snapshot,包括所有的文本(有些版本還包括多媒體資料),這是自然語言處理研究常用的數(shù)據(jù)集之一。好處是它還包含多語言版本,有時(shí)也被機(jī)器翻譯學(xué)者用作研究對(duì)象。
2.2. Google Search。搜索引擎的搜索條目摘要(search snippets)也是重要的語義/語料來源之一。
2.3. WordNet。英語名詞的分類、解釋和相互關(guān)系。常用于語義任務(wù)。
3. 語音/語音識(shí)別:LDC(Linguistic Data Consortium)。學(xué)界做語音識(shí)別的數(shù)據(jù)集大多來自這里。有英語、漢語(普通話)、阿拉伯語等多語種的數(shù)據(jù)——不過大部分?jǐn)?shù)據(jù)要錢。
4. 其它:Amazon Mechanical Turk。如果你有大量數(shù)據(jù)需要利用人類常識(shí)進(jìn)行標(biāo)注(而非專業(yè)人士分析),但手頭只有閑錢沒有人力的話,AMT是不二的選擇。ImageNet等數(shù)據(jù)集都是在AMT的幫助下完成的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09