
今天凌晨4點(diǎn),德國對(duì)巴西的世界杯本決賽給了所有人一個(gè)大大的驚嘆號(hào)。德國7:1戰(zhàn)勝巴西,讓人瞠目,巴西如此慘敗,實(shí)屬難料。也許連谷歌的大數(shù)據(jù)預(yù)測也沒有預(yù)測到7:1的懸殊差距。
在這種情況下,討論用大數(shù)據(jù)精準(zhǔn)預(yù)測世界可能稍顯牽強(qiáng),但是畢竟,大數(shù)據(jù)預(yù)測是趨勢(shì)。
大數(shù)據(jù)發(fā)展到今天,雖然離完美預(yù)測還有一段距離,然而,不可否認(rèn),相信數(shù)據(jù)比相信直覺更加靠譜。拋開今天凌晨這場“大比分”的比賽不談,谷歌、百度、微軟等通過分析大數(shù)據(jù)對(duì)世界杯的前期預(yù)測準(zhǔn)確的同樣讓人驚奇。
谷歌的云計(jì)算平臺(tái)成功預(yù)測了世界杯16強(qiáng)比賽每場比賽的勝利者。據(jù)了解,谷歌使用來自實(shí)時(shí)體育比賽數(shù)據(jù)公司Opta Sports的數(shù)據(jù),以及由BigQuery工程師喬丹·提加尼開發(fā)的實(shí)力排行榜系統(tǒng),更考慮了觀眾熱情程度數(shù)據(jù),以計(jì)算出主隊(duì)優(yōu)勢(shì),從而預(yù)測賽果。此 外,谷歌使用這一系統(tǒng)來預(yù)測世界杯8強(qiáng)的比賽,結(jié)果也驚人地準(zhǔn)確:巴西對(duì)哥倫比亞,巴西勝概率為71%;法國對(duì)德國,法國勝概率為69%;荷蘭對(duì)哥斯達(dá)黎 加,荷蘭勝概率為68%;阿根廷對(duì)比利時(shí),阿根廷勝概率為81%。
事實(shí)上,對(duì)于預(yù)測結(jié)果,谷歌并不是唯一做出完美預(yù)測的公司,百度、微軟必應(yīng)也進(jìn)行了預(yù)測,大家的共同點(diǎn)都在于是依據(jù)云數(shù)據(jù)系統(tǒng)的綜合分析來做出預(yù)測。
隨著大數(shù)據(jù)行業(yè)的發(fā)展,谷歌、亞馬遜、阿里、百度、騰訊,都因?yàn)閾碛写罅康挠脩糇?cè)和運(yùn)營信息,自然地成為大數(shù)據(jù)公司。各種數(shù)據(jù)的記錄也許看起來是隨機(jī)的,但是當(dāng)這些數(shù)據(jù)由光速電腦進(jìn)行分析之后,便會(huì)揭示出影像、模式、聯(lián)系和趨勢(shì),不僅可以提高業(yè)務(wù)績效,更改變生活。
谷歌、百度等搜索引擎不僅存儲(chǔ)了搜索結(jié)果中出現(xiàn)的網(wǎng)絡(luò)連接,還會(huì)儲(chǔ)存用戶搜索關(guān)鍵詞的行為,它能夠精準(zhǔn)地記錄下人們進(jìn)行搜索行為的時(shí)間、內(nèi)容和方式,在你意識(shí)到自己要找什么之前預(yù)測出你的意圖。
去年春節(jié)期間,百度已經(jīng)開始了對(duì)于春節(jié)人口流動(dòng)趨勢(shì)的預(yù)測;今年清明和五一,百度對(duì)全國各大景區(qū)、城市的人流熱度做了預(yù)測,其針對(duì)2014年高考作 文命題方向的預(yù)測更是“命中”了全國18套考題中的12套。據(jù)了解,百度的“高考預(yù)測”還可以利用歷史搜索數(shù)據(jù)、歷年的錄取分?jǐn)?shù)、各批次省控線預(yù)測全國各 個(gè)大學(xué)的報(bào)考熱度、難度,各種專業(yè)的報(bào)考趨勢(shì)以及本省考生都對(duì)哪些專業(yè)、學(xué)校感興趣等。百度CEO李彥宏表示,“對(duì)數(shù)據(jù)的挖掘整理只是大數(shù)據(jù)技術(shù)的初級(jí)階 段。除了通過大數(shù)據(jù)分析規(guī)律、趨勢(shì),機(jī)器必須還要會(huì)自主思考才行?!?/span>
除了IT企業(yè)計(jì)劃的疾病預(yù)測、房地產(chǎn)預(yù)測、就業(yè)預(yù)測、金融預(yù)測,我國疾控中心也計(jì)劃運(yùn)用大數(shù)據(jù),提前確定一定規(guī)模的未知疾病,為疫情控制爭取時(shí)間。
不過,從目前來看,大數(shù)據(jù)的分析預(yù)測能力還遠(yuǎn)未完善。2009年,甲型H1N1流感爆發(fā)的幾周前,“谷歌流感趨勢(shì)”預(yù)測了流感在美國境內(nèi)的傳播,其 分析結(jié)果甚至具體到特定的地區(qū)和州,并且非常及時(shí),令公共衛(wèi)生官員倍感震驚。不過,2013年,谷歌對(duì)于流感的預(yù)測與美國疾病控制中心匯總后的結(jié)果相比, 夸大了幾乎一倍。
業(yè)界認(rèn)為,未來“大數(shù)據(jù)的精準(zhǔn)分析不僅有賴于數(shù)據(jù)資源的擴(kuò)充,更要基于大數(shù)據(jù)引擎的發(fā)展進(jìn)步?!睋?jù)了解,IBM已推出大數(shù)據(jù)行業(yè)方案,英特爾入股了大數(shù)據(jù)初創(chuàng)企業(yè)Cloudera,還推出了基于Hidoop的“大數(shù)據(jù)引擎”。
專家:
數(shù)據(jù)協(xié)同和隱私問題待解
谷歌、IBM、甲骨文、SAP等企業(yè)在大數(shù)據(jù)領(lǐng)域進(jìn)行了技術(shù)創(chuàng)新,越來越多的國外企業(yè)憑借技術(shù)優(yōu)勢(shì)和先行經(jīng)驗(yàn)進(jìn)軍大數(shù)據(jù)市場。然而,我國大數(shù)據(jù)產(chǎn)業(yè) 發(fā)展仍然處于起步階段。“每一次點(diǎn)擊、觸摸、短信、微信、微博、駕駛、飛行、通話、拍照、購買等都產(chǎn)生數(shù)據(jù)……雖然每天在產(chǎn)生大量數(shù)據(jù),卻沒有顯示出足夠 的威力。”賽迪顧問分析師表示,“交通部門有車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車站監(jiān)控等地方的大數(shù)據(jù),衛(wèi)生部門擁有流感法定報(bào)告數(shù)據(jù)、全國流感樣 病例哨點(diǎn)監(jiān)測和病原學(xué)監(jiān)測數(shù)據(jù),公安部門有大量的視頻監(jiān)控?cái)?shù)據(jù),但政府部門幾乎都沒有大數(shù)據(jù)處理和挖掘技術(shù)。”
除了互聯(lián)網(wǎng)公司,沃爾瑪、中國移動(dòng)等傳統(tǒng)企業(yè)也掌握著大量用戶數(shù)據(jù),平臺(tái)企業(yè)互相獨(dú)立地應(yīng)用數(shù)據(jù)淘金,各取所需,但數(shù)據(jù)的私密占有嚴(yán)重制約著大數(shù)據(jù)的廣泛應(yīng)用和融合發(fā)展?!按髷?shù)據(jù)的協(xié)同可以實(shí)現(xiàn)智能路徑規(guī)劃、運(yùn)力管理、流感預(yù)測、疫苗接種指導(dǎo)、安防追逃等?!?/span>
《大數(shù)據(jù)時(shí)代》一書中指出,“大數(shù)據(jù)本身探尋的是一種趨勢(shì),而非精準(zhǔn)性,若要無限接近統(tǒng)計(jì)結(jié)果,必須讓大數(shù)據(jù)與精細(xì)的傳統(tǒng)統(tǒng)計(jì)方法互補(bǔ),而非兩者相互替代?!?/span>
此外,數(shù)據(jù)的隱私問題也仍然待解。谷歌斥巨資投入的癌癥預(yù)測項(xiàng)目中,僅有4%的癌癥患者參與到了臨床試驗(yàn)數(shù)據(jù)庫項(xiàng)目中,這也就意味著高達(dá)96%病患的醫(yī)療和綜合體征信息難以被其他醫(yī)療機(jī)構(gòu)或者醫(yī)生輕易獲悉。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11