
什么是大數(shù)據(jù),你們感受一下
大數(shù)據(jù)可以被視作一種比率——我們能計算的數(shù)據(jù)比上我們必須計算的數(shù)據(jù)。大數(shù)據(jù)一直存在,只是看你怎么用它。
數(shù)據(jù)不是信息,而是有待理解的原材料。但有一件事是確定無疑的:當(dāng)NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,耗資數(shù)十億改善新手段時,它正受益于陡然降落的計算機(jī)存儲和處理價格。
麻省理工學(xué)院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創(chuàng)建了一個計算機(jī)模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者——一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識別出更多的,無法通過現(xiàn)有的風(fēng)險篩查被探查出的高危病人。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實現(xiàn)的機(jī)制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。
威斯康星探索學(xué)院主任大衛(wèi)·克拉考爾(David Krakauer)說,數(shù)據(jù)量的增長——以及提取信息的能力的提高——也在影響著科學(xué)。“計算機(jī)的處理能力和存儲空間在呈指數(shù)增長,成本卻在指數(shù)級下降。從這個意義上來講,很多科學(xué)研究如今也遵循摩爾定律?!?/span>
在 2005年,一塊1TB的硬盤價格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量?!毖芯恐悄苎莼目死紶栒f。現(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因為我們正處于驚天動地的變革當(dāng)中,而且我們正以前所未有的方式感知它?!笨死瓌跔栒f。
隨著我們通過電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時刻表現(xiàn)出來:
◆你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息
◆你觀賞的電影采用了以幾十萬G數(shù)據(jù)為基礎(chǔ)的計算機(jī)圖形圖像技術(shù)
◆你光顧的商店在對顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤
◆用算法預(yù)測人們購票需求,航空公司以不可預(yù)知的方式調(diào)整價格
◆智能手機(jī)的應(yīng)用識別到你的位置,因此你收到附近餐廳的服務(wù)信息
當(dāng)醫(yī)學(xué)家忙于應(yīng)對癌癥、細(xì)菌和病毒之時,互聯(lián)網(wǎng)上的政治言論已呈燎原之勢。整個推特圈上每天要出現(xiàn)超過5億條推文,其政治影響力與日俱增,使廉潔政府團(tuán)體面臨著數(shù)據(jù)挖掘技術(shù)帶來的巨大挑戰(zhàn)。
印第安納大學(xué)Truthy(意:可信)項目的目標(biāo)是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費拉拉(Emilio Ferrara)說?!癟ruthy是一種能讓研究者研究推特上信息擴(kuò)散的工具。通過識別關(guān)鍵詞以及追蹤在線用戶的活動,我們研究正在進(jìn)行的討論?!?/span>
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機(jī)過濾多達(dá)5千萬條推文,試圖找出其中蘊(yùn)含的模式。
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機(jī)過濾多達(dá)5千萬條推文,試圖找出其中蘊(yùn)含的模式。
大數(shù)據(jù)盯著“#bigdata”(意為大數(shù)據(jù))。這些是在推特上發(fā)布過“bigdata”的用戶之間的連接,用戶圖標(biāo)的尺寸代表了其粉絲數(shù)多寡。藍(lán)線表示一次回復(fù)或者提及,綠線表示一個用戶是另一個的粉絲。
一個主要的興趣點是“水軍”,費拉拉說:協(xié)調(diào)一致的造勢運動本應(yīng)來自草根階層,但實際上是由“熱衷傳播虛假信息的個人和組織”發(fā)起的。
2012年美國大選期間,一系列推文聲稱共和黨總統(tǒng)候選人米特·羅姆尼(MittRomney)在臉譜網(wǎng)上獲得了可疑的大批粉絲?!罢{(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無關(guān)?!辟M拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運動?!?/span>
水軍的造勢運動通常很有特點,費拉拉說。“要想發(fā)起一場大規(guī)模的抹黑運動,你需要很多推特賬號,”包括由程序自動運行、反復(fù)發(fā)布選定信息的假賬號?!拔覀兺ㄟ^分析推文的特征,能夠辨別出這種自動行為?!?/span>
推文的數(shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個項目的目的是讓技術(shù)掌握一點這樣的信息。”費拉拉說,“找到一切是不可能的,但哪怕我們能夠發(fā)現(xiàn)一點,也比沒有強(qiáng)?!?/span>
如果你想了解你家中每一件設(shè)備消耗了多少水和能量,麥克阿瑟獎獲得者西瓦塔克·帕特爾(Shwetak Patel)有個解決方案:用無線傳感器識別每一臺設(shè)備的唯一數(shù)字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞州海沃德市的這個家庭驚訝地得知,錄像機(jī)消耗了他們家11%的電力。等到處理能力一次相對較小的改變令結(jié)果出現(xiàn)突破性的進(jìn)展,克拉考爾補(bǔ)充道,大數(shù)據(jù)的應(yīng)用可能會經(jīng)歷一次“相變”。
“大數(shù)據(jù)”是一個相對的說法,不是絕對的,克拉考爾指出?!按髷?shù)據(jù)可以被視作一種比率——我們能計算的數(shù)據(jù)比上我們必須計算的數(shù)據(jù)。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學(xué)家第谷布拉赫(Tycho Brahe,1546-1601),當(dāng)時還沒有解釋行星運動的開普勒理論,因此這個比率是歪曲的。這是那個年代的大數(shù)據(jù)?!?/span>
大數(shù)據(jù)成為問題“是在技術(shù)允許我們收集和存儲的數(shù)據(jù)超過了我們對系統(tǒng)精推細(xì)研的能力之后。”克拉考爾說。
我們好奇,當(dāng)軟件繼續(xù)在大到無法想象的數(shù)據(jù)庫
數(shù)據(jù)庫是指長期存儲在計算機(jī)內(nèi)有組織的、可共享的數(shù)據(jù)集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)…
上執(zhí)行復(fù)雜計算,以此為基礎(chǔ)在科學(xué)、商業(yè)和安全領(lǐng)域制定決策,我們是不是把過多的權(quán)力交給了機(jī)器。在我們無法覷探之處,決策在沒人理解輸入與輸出、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動做出?!斑@正是我所從事的領(lǐng)域,”克拉考爾回應(yīng)道,“我的研究對象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說的?!?/span>
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07