
隨著信息革命的深入,大數(shù)據(jù)時代的預(yù)測更加容易,人類的生活正在被大數(shù)據(jù)預(yù)測深刻改變。大數(shù)據(jù)預(yù)測則是基于大數(shù)據(jù)和預(yù)測模型去預(yù)測未來某件事情的概率。讓分析從“面向已經(jīng)發(fā)生的過去”轉(zhuǎn)向“面向即將發(fā)生的未來”是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)分析的最大不同。
預(yù)測是大數(shù)據(jù)核心價值
人們在談?wù)摯髷?shù)據(jù)的采集、存儲和挖掘時,最常見的應(yīng)用案例便是“預(yù)測股市”“預(yù)測流感”“預(yù)測消費者行為”,預(yù)測性分析是大數(shù)據(jù)最核心的功能。
大數(shù)據(jù)還擁有數(shù)據(jù)可視化和大數(shù)據(jù)挖掘的功能,對已發(fā)生的信息價值進行挖掘并輔助決策。傳統(tǒng)的數(shù)據(jù)分析挖掘在做相似的事情,只不過效率會低一些或者說挖掘的深度、廣度和精度不夠。大數(shù)據(jù)預(yù)測則是基于大數(shù)據(jù)和預(yù)測模型去預(yù)測未來某件事情的概率。讓分析從“面向已經(jīng)發(fā)生的過去”轉(zhuǎn)向“面向即將發(fā)生的未來”是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)分析的最大不同。
大數(shù)據(jù)預(yù)測的邏輯基礎(chǔ)是,每一種非常規(guī)的變化事前一定有征兆,每一件事情都有跡可循,如果找到了征兆與變化之間的規(guī)律,就可以進行預(yù)測。大數(shù)據(jù)預(yù)測無法確定某件事情必然會發(fā)生,它更多是給出一個概率。
從天氣預(yù)報看大數(shù)據(jù)預(yù)測的四個條件
在互聯(lián)網(wǎng)之前便已經(jīng)有基于大數(shù)據(jù)的預(yù)測分析了:天氣預(yù)報。因為互聯(lián)網(wǎng),天氣預(yù)報為代表的大數(shù)據(jù)預(yù)測的以下幾個特征在更多領(lǐng)域得到體現(xiàn)。
1、大數(shù)據(jù)預(yù)測的時效性。天氣預(yù)報粒度從天縮短到小時,有嚴苛的時效要求,基于海量數(shù)據(jù)通過傳統(tǒng)方式進行計算,得出結(jié)論時明天早已到來,預(yù)測并無價值。其他領(lǐng)域的大數(shù)據(jù)預(yù)測應(yīng)用特征對“時效性”有更高要求,譬如股市、實時定價,而云計算、分布式計算和超級計算機的發(fā)展則提供了這樣的高速計算能力。
2、大數(shù)據(jù)預(yù)測的數(shù)據(jù)源。天氣預(yù)報需要收集海量氣象數(shù)據(jù),氣象衛(wèi)星、氣象站臺負責收集,但整套系統(tǒng)的部署和運維耗資巨大。在互聯(lián)網(wǎng)之前鮮有領(lǐng)域具備這樣的數(shù)據(jù)收集能力。WEB1.0為中心化信息產(chǎn)生、WEB2.0為社會化創(chuàng)造、移動互聯(lián)網(wǎng)則是隨時隨地、社會化和多設(shè)備的數(shù)據(jù)上傳,每一次演化數(shù)據(jù)收集的成本都大幅降低,范圍和規(guī)模則大幅擴大。大數(shù)據(jù)被引爆的同時,大數(shù)據(jù)預(yù)測所需數(shù)據(jù)源不再是問題。
3、大數(shù)據(jù)預(yù)測的動態(tài)性。不同時點的計算因子動態(tài)變化,任何變量都會引發(fā)整個系統(tǒng)變化,甚至產(chǎn)生蝴蝶效應(yīng)。如果某個變量對結(jié)果起決定性作用且難以捕捉,預(yù)測難上加難,譬如人為因素。大數(shù)據(jù)預(yù)測的應(yīng)用場景大都是極不穩(wěn)定的領(lǐng)域但有固定規(guī)律,譬如天氣、股市、疾病。這需要預(yù)測系統(tǒng)對每一個變量數(shù)據(jù)的精準捕捉,并接近實時地調(diào)整預(yù)測。發(fā)達的傳感器網(wǎng)絡(luò)外加大數(shù)據(jù)計算能力讓上述兩點更加容易。
4、大數(shù)據(jù)預(yù)測的規(guī)律性。大數(shù)據(jù)預(yù)測與傳統(tǒng)的基于抽樣的預(yù)測不同之處在于,其基于海量歷史數(shù)據(jù)和實時動態(tài)數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)與結(jié)果之間的規(guī)律,并假設(shè)此規(guī)律會延續(xù),捕捉到變量之后進行預(yù)測。一個領(lǐng)域本身便有相對穩(wěn)定的規(guī)律,大數(shù)據(jù)預(yù)測才有機會得到應(yīng)用。古人夜觀天象就說明天氣是由規(guī)律可循的,因此氣象預(yù)報最早得到應(yīng)用。反面案例則是規(guī)律難以捉摸,數(shù)據(jù)源收集困難的地震預(yù)測,還有雙色球彩票。
大數(shù)據(jù)預(yù)測的典型應(yīng)用領(lǐng)域
互聯(lián)網(wǎng)給大數(shù)據(jù)預(yù)測應(yīng)用的普及帶來了便利條件。天氣預(yù)報之外,還有哪些領(lǐng)域正在或者可能被大數(shù)據(jù)預(yù)測所改變呢?結(jié)合國內(nèi)外案例來看,以下11個領(lǐng)域是最有機會的大數(shù)據(jù)預(yù)測應(yīng)用領(lǐng)域。
1、體育賽事預(yù)測
世界杯期間,谷歌、百度、微軟和高盛等公司都推出了比賽結(jié)果預(yù)測平臺。百度預(yù)測結(jié)果最為亮眼,預(yù)測全程64場比賽,準確率為67%,進入淘汰賽后準確率為94%?,F(xiàn)在互聯(lián)網(wǎng)公司取代章魚保羅試水賽事預(yù)測也意味著未來的體育賽事會被大數(shù)據(jù)預(yù)測所掌控。
谷歌世界杯預(yù)測基于Opta Sports的海量賽事數(shù)據(jù)來構(gòu)建其最終的預(yù)測模型。百度則是搜索過去5年內(nèi)全世界987支球隊(含國家隊和俱樂部隊)的3.7萬場比賽數(shù)據(jù),同時與中國彩票網(wǎng)站樂彩網(wǎng)、歐洲必發(fā)指數(shù)數(shù)據(jù)供應(yīng)商Spdex進行數(shù)據(jù)合作,導(dǎo)入博彩市場的預(yù)測數(shù)據(jù),建立了一個囊括199972名球員和1.12億條數(shù)據(jù)的預(yù)測模型,并在此基礎(chǔ)上進行結(jié)果預(yù)測。
從互聯(lián)網(wǎng)公司的成功經(jīng)驗來看,只要有體育賽事歷史數(shù)據(jù),并且與指數(shù)公司進行合作,便可以進行其他賽事的預(yù)測,譬如歐冠、NBA等賽事。
2、股票市場預(yù)測
去年英國華威商學院和美國波士頓大學物理系的研究發(fā)現(xiàn),用戶通過谷歌搜索的金融關(guān)鍵詞或許可以金融市場的走向,相應(yīng)的投資戰(zhàn)略收益高達326%。此前則有專家嘗試通過Twitter博文情緒來預(yù)測股市波動。
理論上來講股市預(yù)測更加適合美國。中國股票市場無法做到雙向盈利,只有股票漲才能盈利,這會吸引一些游資利用信息不對稱等情況人為改變股票市場規(guī)律,因此中國股市沒有相對穩(wěn)定的規(guī)律則很難被預(yù)測,且一些對結(jié)果產(chǎn)生決定性影響的變量數(shù)據(jù)根本無法被監(jiān)控。
3、市場物價預(yù)測
CPI表征已經(jīng)發(fā)生的物價浮動情況,但統(tǒng)計局數(shù)據(jù)并不權(quán)威。但大數(shù)據(jù)則可能幫助人們了解未來物價走向,提前預(yù)知通貨膨脹或經(jīng)濟危機。最典型的案例莫過于馬云通過阿里B2B大數(shù)據(jù)提前知曉亞洲金融危機,當然這是阿里數(shù)據(jù)團隊的功勞。
單個商品的價格預(yù)測更加容易,尤其是機票這樣的標準化產(chǎn)品,去哪兒提供的“機票日歷”就是價格預(yù)測,告知你幾個月后機票的大概價位。商品的生產(chǎn)、渠道成本和大概毛利在充分競爭的市場中是相對穩(wěn)定的,與價格相關(guān)的變量相對固定,商品的供需關(guān)系在電子商務(wù)平臺可實時監(jiān)控,因此價格可以預(yù)測,基于預(yù)測結(jié)果可提供購買時間建議,或者指導(dǎo)商家進行動態(tài)價格調(diào)整和營銷活動以利益最大化。
5、用戶行為預(yù)測
基于用戶搜索行為、瀏覽行為、評論歷史和個人資料等數(shù)據(jù),互聯(lián)網(wǎng)業(yè)務(wù)可以洞察消費者的整體需求,進而進行針對性的產(chǎn)品生產(chǎn)、改進和營銷。《紙牌屋》選擇演員和劇情、百度基于用戶喜好進行精準廣告營銷、阿里根據(jù)天貓用戶特征包下生產(chǎn)線定制產(chǎn)品、亞馬遜預(yù)測用戶點擊行為提前發(fā)貨均是受益于互聯(lián)網(wǎng)用戶行為預(yù)測。
受益于傳感器技術(shù)和物聯(lián)網(wǎng)的發(fā)展,線下的用戶行為洞察正在醞釀。免費商用WIFI、ibeacon技術(shù)、攝像頭影像監(jiān)控、室內(nèi)定位技術(shù)、NFC傳感器網(wǎng)絡(luò)、排隊叫號系統(tǒng),可以探知用戶線下的移動、停留、出行規(guī)律等數(shù)據(jù),進行精準營銷或者產(chǎn)品定制。
6、人體健康預(yù)測
中醫(yī)可以通過望聞問切手段發(fā)現(xiàn)一些人體內(nèi)隱藏的慢性病,甚至看體質(zhì)便可知曉一個人將來可能會出現(xiàn)什么癥狀。人體體征變化有一定規(guī)律,而慢性病發(fā)生前人體已經(jīng)會有一些持續(xù)性異常。理論上來說,如果大數(shù)據(jù)掌握了這樣的異常情況,便可以進行慢性病預(yù)測。
結(jié)合智能硬件,慢性病的大數(shù)據(jù)預(yù)測變?yōu)榭赡?。可穿戴設(shè)備和智能健康設(shè)備幫助網(wǎng)絡(luò)收集人體健康數(shù)據(jù),心率、體重、血脂、血糖、運動量、睡眠量等狀況。如果這些數(shù)據(jù)足夠精準且全面,并且有可以形成算法的慢性病預(yù)測模式,或許未來你的設(shè)備就會提醒你的身體罹患某種慢性病的風險。KickStarter上的My Spiroo便可收集哮喘病人的吐氣數(shù)據(jù)來指導(dǎo)醫(yī)生診斷其未來的病情趨勢。急性病卻很難預(yù)測,突變和隨機性特征使之難以預(yù)測。
7、疾病疫情預(yù)測
基于人們的搜索情況、購物行為預(yù)測大面積疫情爆發(fā)的可能性,最經(jīng)典的“流感預(yù)測”便屬于此類。如果來自某個區(qū)域的“流感”、“板藍根”搜索需求越來越多,自然可以推測該處有流感趨勢。
繼世界杯、高考、景點和城市預(yù)測之后,百度近日推出了疾病預(yù)測產(chǎn)品。目前可以就流感、肝炎、肺結(jié)核、性病這四種疾病,對全國每一個省份以及大多數(shù)地級市和區(qū)縣的活躍度、趨勢圖等情況,進行全面的監(jiān)控。未來,百度疾病預(yù)測監(jiān)控的疾病種類將從目前的4種擴展到30多種,覆蓋更多的常見病和流行病。用戶可以根據(jù)當?shù)氐念A(yù)測結(jié)果進行針對性的預(yù)防。
8、災(zāi)害災(zāi)難預(yù)測
氣象預(yù)測是最典型的災(zāi)難災(zāi)害預(yù)測。地震、洪澇、高溫、暴雨這些自然災(zāi)害如果可以利用大數(shù)據(jù)能力進行更加提前的預(yù)測和告知便有助于減災(zāi)防災(zāi)救災(zāi)賑災(zāi)。與過往不同的是,過去的數(shù)據(jù)收集方式存在著死角、成本高等問題,物聯(lián)網(wǎng)時代可以借助廉價的傳感器攝像頭和無線通信網(wǎng)絡(luò),進行實時的數(shù)據(jù)監(jiān)控收集,再利用大數(shù)據(jù)預(yù)測分析,做到更精準的自然災(zāi)害預(yù)測。
9、環(huán)境變遷預(yù)測
除了進行短時間微觀的天氣、災(zāi)害預(yù)測之外,還可以進行更加長期和宏觀的環(huán)境和生態(tài)變遷預(yù)測。森林和農(nóng)田面積縮小、野生動物植物瀕危、海岸線上升,溫室效應(yīng)這些問題是地球面臨的“慢性問題“。如果人類知道越多地球生態(tài)系統(tǒng)以及天氣形態(tài)變化數(shù)據(jù),就越容易模型化未來環(huán)境的變遷,進而阻止不好的轉(zhuǎn)變發(fā)生。而大數(shù)據(jù)幫助人類收集、儲存和挖掘更多的地球數(shù)據(jù),同時還提供了預(yù)測的工具。
10、交通行為預(yù)測
基于用戶和車輛的LBS定位數(shù)據(jù),分析人車出行的個體和群體特征,進行交通行為的預(yù)測。交通部門可預(yù)測不同時點不同道路的車流量進行智能的車輛調(diào)度,或應(yīng)用潮汐車道;用戶則可以根據(jù)預(yù)測結(jié)果選擇擁堵幾率更低的道路。
百度基于地圖應(yīng)用的LBS預(yù)測涵蓋范圍更廣。春運期間預(yù)測人們的遷徙趨勢指導(dǎo)火車線路和航線的設(shè)置,節(jié)假日預(yù)測景點的人流量指導(dǎo)人們的景區(qū)選擇,平時還有百度熱力圖來告訴用戶城市商圈、動物園等地點的人流情況,指導(dǎo)用戶出行選擇和商家的選點選址。
11、能源消耗預(yù)測
加州電網(wǎng)系統(tǒng)運營中心管理著加州超過80%的電網(wǎng),向3500萬用戶每年輸送2.89億兆瓦電力,電力線長度超過25000英里。該中心采用了Space-Time Insight的軟件進行智能管理,綜合分析來自包括天氣、傳感器、計量設(shè)備等各種數(shù)據(jù)源的海量數(shù)據(jù),預(yù)測各地的能源需求變化,進行智能電能調(diào)度,平衡全網(wǎng)的電力供應(yīng)和需求,并對潛在危機做出快速響應(yīng)。中國智能電網(wǎng)業(yè)已在嘗試類似大數(shù)據(jù)預(yù)測應(yīng)用。
對于單個家庭來說則可以通過智能家居設(shè)備,記錄家庭成員的起居習慣,感知用戶的舒適度,預(yù)測用戶的溫控能耗需求,進行智能的溫控裝置控制,還可結(jié)合階梯電價表來幫助用戶省錢。Nest正式基于大數(shù)據(jù)預(yù)測用戶能耗需求的成功產(chǎn)品。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10