
顛覆我們生活的大數(shù)據(jù) 其核心商業(yè)價(jià)值是什么
數(shù)據(jù)本身不產(chǎn)生價(jià)值,如何分析和利用大數(shù)據(jù)對(duì)業(yè)務(wù)產(chǎn)生幫助才是關(guān)鍵。首先例舉一些大數(shù)據(jù)的典型應(yīng)用,然后解釋大數(shù)據(jù)的定義,最后總結(jié)大數(shù)據(jù)的價(jià)值。
我們知道:
1. 第一次工業(yè)革命以煤炭為基礎(chǔ),蒸汽機(jī)和印刷術(shù)為標(biāo)志;2. 第二次工業(yè)革命以石油為基礎(chǔ),內(nèi)燃機(jī)和電信技術(shù)為標(biāo)志;3. 第三次工業(yè)革命以核能為基礎(chǔ),互聯(lián)網(wǎng)技術(shù)為標(biāo)志;4. 第四次工業(yè)革命以可再生能源為基礎(chǔ),_________為標(biāo)志。
空白處你會(huì)填上什么?歡迎大家討論。但是目前可以預(yù)測(cè)的是,數(shù)據(jù)和內(nèi)容作為互聯(lián)網(wǎng)的核心,不論是傳統(tǒng)行業(yè)還是新型行業(yè),誰(shuí)率先與互聯(lián)網(wǎng)融合成功,能夠從大數(shù)據(jù)的金礦中發(fā)現(xiàn)暗藏的規(guī)律,就能夠搶占先機(jī),成為技術(shù)改革的標(biāo)志。
一、大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)挖掘商業(yè)價(jià)值的方法主要分為四種:
1. 客戶群體細(xì)分,然后為每個(gè)群體量定制特別的服務(wù)。
2. 模擬現(xiàn)實(shí)環(huán)境,發(fā)掘新的需求同時(shí)提高投資的回報(bào)率。
3. 加強(qiáng)部門(mén)聯(lián)系,提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率。
4. 降低服務(wù)成本,發(fā)現(xiàn)隱藏線索進(jìn)行產(chǎn)品和服務(wù)的創(chuàng)新。
Mckinsey 列出了各個(gè)行業(yè)利用大數(shù)據(jù)價(jià)值的難易度以及發(fā)展?jié)摿Α?br />
大數(shù)據(jù)的類(lèi)型大致可分為三類(lèi):
1. 傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional enterprise data):包括 CRM systems 的消費(fèi)者數(shù)據(jù),傳統(tǒng)的 ERP 數(shù)據(jù),庫(kù)存數(shù)據(jù)以及賬目數(shù)據(jù)等。
2. 機(jī)器和傳感器數(shù)據(jù)(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是 Digital exhaust),交易數(shù)據(jù)等。
3. 社交數(shù)據(jù)(Social data):包括用戶行為記錄,反饋數(shù)據(jù)等。如 Twitter,F(xiàn)acebook 這樣的社交媒體平臺(tái)。
從理論上來(lái)看:所有產(chǎn)業(yè)都會(huì)從大數(shù)據(jù)的發(fā)展中受益。但由于數(shù)據(jù)缺乏以及從業(yè)人員本身的原因,第一、第二產(chǎn)業(yè)的發(fā)展速度相對(duì)于第三產(chǎn)業(yè)來(lái)說(shuō)會(huì)遲緩一些。
1985 年,我國(guó)國(guó)家統(tǒng)計(jì)局明確地把我國(guó)產(chǎn)業(yè)劃分為三大產(chǎn)業(yè):
1. 農(nóng)業(yè)(包括林業(yè)、牧業(yè)、漁業(yè)等)定為第一產(chǎn)業(yè)。
2. 工業(yè)(包括采掘業(yè)、制造業(yè)、自來(lái)水、電力、蒸汽、煤氣)和建筑業(yè)定為第二產(chǎn)業(yè)。
3. 把第一、二產(chǎn)業(yè)以外的各行業(yè)定為第三產(chǎn)業(yè)。
第三產(chǎn)業(yè)即除第一、第二產(chǎn)業(yè)以外的向全社會(huì)提供各種各樣勞務(wù)的服務(wù)性行業(yè),主要是服務(wù)業(yè)。其中第三產(chǎn)業(yè)可具體分為兩大部門(mén):一是流通部門(mén);二是服務(wù)部門(mén)。再細(xì)分又可分為四個(gè)層次:
1. 第一層次,流通部門(mén)。包括交通運(yùn)輸行業(yè)、郵電通訊行業(yè)、物資供銷(xiāo)和倉(cāng)儲(chǔ)行業(yè)。
2. 第二層次,為生產(chǎn)和生活服務(wù)的部門(mén)。包括金融業(yè)、商業(yè)飲食業(yè)、保險(xiǎn)業(yè)、地質(zhì)普查業(yè)、房地產(chǎn)業(yè)、公用事業(yè)、技術(shù)服務(wù)業(yè)和生活服務(wù)修理業(yè)務(wù);
3. 第三層次,為提高科學(xué)文化水平和居民素質(zhì)服務(wù)的部門(mén)。包括教育文化、廣播電視事業(yè)、科學(xué)研究事業(yè)、衛(wèi)生、體育和社會(huì)福利事業(yè);
4.第四層次,為社會(huì)公共需要服務(wù)的部門(mén)。包括國(guó)家機(jī)關(guān)、黨政機(jī)關(guān)、社會(huì)團(tuán)體、以及軍隊(duì)和警察公安司法機(jī)關(guān)等。
我們可以看出,由于某些客觀原因,相對(duì)于第一產(chǎn)業(yè)和第二產(chǎn)業(yè)來(lái)說(shuō),第三產(chǎn)業(yè)憑借自身的優(yōu)勢(shì),大多匯聚了當(dāng)前最海量的數(shù)據(jù)以及大批的科研中堅(jiān)力量。接下來(lái)讓我們看一些典型例子,當(dāng)前新形勢(shì)下與三大產(chǎn)業(yè)密切相關(guān)的大數(shù)據(jù)應(yīng)用。
(1)第一產(chǎn)業(yè)
孟山都(Monsanto A Sustainable Agriculture Company),農(nóng)業(yè)
孟山都是一家美國(guó)的跨國(guó)農(nóng)業(yè)生物技術(shù)公司,其生產(chǎn)的旗艦產(chǎn)品抗農(nóng)達(dá),即年年春(Roundup)是全球知名的嘉磷塞除草劑,長(zhǎng)期占據(jù)市場(chǎng)第一個(gè)位置。該公司目前也是基因改造(GE)種子的領(lǐng)先生產(chǎn)商,占據(jù)了多種農(nóng)作物種子
70%–100%的市場(chǎng)份額,而在美國(guó)本土,更占有整個(gè)市場(chǎng)的 90%。已經(jīng)統(tǒng)治了生物工程種子業(yè)務(wù)超過(guò)十年。
孟山都首先發(fā)起“Green Data Revolution”運(yùn)動(dòng),建立農(nóng)業(yè)數(shù)據(jù)聯(lián)盟(Open Ag Data
Alliance)來(lái)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),讓農(nóng)民不用懂“高科技”也能享受大數(shù)據(jù)的成果。典型的應(yīng)用如農(nóng)場(chǎng)設(shè)備制造商 John Deere 與 DuPont
Pioneer 當(dāng)前聯(lián)合提供“決策服務(wù)(Decision
Services)”,農(nóng)民只需在駕駛室里拿出平板電腦,收集種子監(jiān)視器傳來(lái)的數(shù)據(jù),然后將其上傳給服務(wù)器,最終服務(wù)器返回化肥的配方到農(nóng)場(chǎng)拖拉機(jī)上。
天氣意外保險(xiǎn)公司(The Climate Corporation),農(nóng)業(yè)
The Climate Corporation 為農(nóng)民提供 Total Weather Insurance
(TWI)——涵蓋全年各季節(jié)的天氣保險(xiǎn)項(xiàng)目。利用公司特有的數(shù)據(jù)采集與分析平臺(tái),每天從 250
萬(wàn)個(gè)采集點(diǎn)獲取天氣數(shù)據(jù),并結(jié)合大量的天氣模擬、海量的植物根部構(gòu)造和土質(zhì)分析等信息對(duì)意外天氣風(fēng)險(xiǎn)做出綜合判斷,然后向農(nóng)民提供農(nóng)作物保險(xiǎn)。前不久從
Google Ventures、Founders Fund 等多家公司獲得超過(guò) 5000 萬(wàn)美元的風(fēng)險(xiǎn)投資。 2013 年被孟山都收購(gòu)。
土壤抽樣分析服務(wù)商(Solum, Inc),農(nóng)業(yè)
Solum 目標(biāo)是實(shí)現(xiàn)高效、精準(zhǔn)的土壤抽樣分析,以幫助種植者在正確的時(shí)間、正確的地點(diǎn)進(jìn)行精確施肥。農(nóng)戶既可以通過(guò)公司開(kāi)發(fā)的 No
Wait Nitrate 系統(tǒng)在田間進(jìn)行分析即時(shí)獲取數(shù)據(jù);也可以把土壤樣本寄給該公司的實(shí)驗(yàn)室進(jìn)行分析。2012 年獲得 Andreessen
Horowitz 領(lǐng)投的 1700 萬(wàn)美元投資后,已累計(jì)融資近 2000 萬(wàn)美元。
(2)第二產(chǎn)業(yè)
2013 年 9 月,工業(yè)和信息化部發(fā)布了《關(guān)于印發(fā)信息化和工業(yè)化深度融合專(zhuān)項(xiàng)行動(dòng)計(jì)劃(2013-2018 年)》的通知。明確提出推動(dòng)物聯(lián)網(wǎng)在工業(yè)領(lǐng)域的集成創(chuàng)新和應(yīng)用:
實(shí)施物聯(lián)網(wǎng)發(fā)展專(zhuān)項(xiàng),在重點(diǎn)行業(yè)組織開(kāi)展試點(diǎn)示范,以傳感器和傳感器網(wǎng)絡(luò)、RFID、工業(yè)大數(shù)據(jù)的應(yīng)用為切入點(diǎn),重點(diǎn)支持生產(chǎn)過(guò)程控制、生產(chǎn)環(huán)境檢測(cè)、制造供應(yīng)鏈跟蹤、遠(yuǎn)程診斷管理等物聯(lián)網(wǎng)應(yīng)用,促進(jìn)經(jīng)濟(jì)效益提升、安全生產(chǎn)和節(jié)能減排。
大數(shù)據(jù)的業(yè)務(wù)多是數(shù)據(jù)驅(qū)動(dòng)型,具有數(shù)據(jù)量大、種類(lèi)多、實(shí)時(shí)性高的特點(diǎn)。工業(yè)企業(yè)對(duì)數(shù)據(jù)的記錄以往看來(lái)主要分為兩種方法:傳統(tǒng)的紙筆和 Excel 電子表格記錄。這些操作起來(lái)看似簡(jiǎn)單的數(shù)據(jù)管理方式為企業(yè)生產(chǎn)及質(zhì)量監(jiān)控埋下了巨大的隱患,也讓數(shù)據(jù)挖掘無(wú)從談起。
隨著信息化與工業(yè)化的融合發(fā)展,信息技術(shù)滲透到了工業(yè)企業(yè)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)。例如
Sensor、RFID、Barcode、物聯(lián)網(wǎng)等技術(shù)已經(jīng)在企業(yè)中得到初步應(yīng)用,工業(yè)大數(shù)據(jù)也開(kāi)始逐漸得到積累。企業(yè)中生產(chǎn)線高速運(yùn)轉(zhuǎn)時(shí)機(jī)器所產(chǎn)生的數(shù)據(jù)量不亞于計(jì)算機(jī)數(shù)據(jù),而且數(shù)據(jù)類(lèi)型多是非結(jié)構(gòu)化數(shù)據(jù),對(duì)數(shù)據(jù)的實(shí)時(shí)性要求也更高。因此工業(yè)大數(shù)據(jù)所面臨的問(wèn)題和挑戰(zhàn)很多,所以通用電氣公司(General
Electric)的副總裁兼全球技術(shù)總監(jiān) William Ruh 認(rèn)為相對(duì)于工業(yè)大數(shù)據(jù)來(lái)說(shuō),工業(yè)互聯(lián)網(wǎng)(Industrial
Internet)才是當(dāng)前急需的,因?yàn)榇髷?shù)據(jù)本身并沒(méi)有讓信息的提取更加智能,業(yè)務(wù)比數(shù)據(jù)本身更加重要。他舉了一個(gè)核磁共振成像掃描的例子:
又如在工業(yè)中,壓力、溫度等數(shù)據(jù)的特點(diǎn)是需要語(yǔ)境才能理解的。燃?xì)廨啓C(jī)排氣裝置上的溫度讀數(shù)與一臺(tái)機(jī)車(chē)的內(nèi)部溫度是完全不同的。燃?xì)廨啓C(jī)改善熱敷需要使用非常復(fù)雜的算法運(yùn)行模型。在筆記本電腦上,一個(gè)典型的查詢要獲得答案一般需要三個(gè)星期。在基于大數(shù)據(jù)的分布式系統(tǒng)上發(fā)布同樣的查詢執(zhí)行一種計(jì)算只需要不到一秒鐘。
第三方認(rèn)證機(jī)構(gòu)(T?V NORD GROUP),工業(yè)
德國(guó)漢德技術(shù)監(jiān)督服務(wù)有限公司的前身是德國(guó)鍋爐檢驗(yàn)協(xié)會(huì)(簡(jiǎn)稱(chēng) D?V)早在 1869
年,德國(guó)鍋爐檢驗(yàn)協(xié)會(huì)就承擔(dān)了德國(guó)國(guó)內(nèi)所有鍋爐運(yùn)行安全的檢驗(yàn)工作,保證了鍋爐生產(chǎn)的安全。漸漸的,德國(guó)鍋爐檢驗(yàn)協(xié)會(huì)取得了德國(guó)政府的授權(quán),開(kāi)展對(duì)其他產(chǎn)品的檢驗(yàn)工作,從采礦,電力系統(tǒng)開(kāi)始,到壓力容器,機(jī)動(dòng)車(chē)輛,醫(yī)療設(shè)備,環(huán)境保護(hù),宇航工業(yè),醫(yī)療產(chǎn)品等等,現(xiàn)在的德國(guó)漢德技術(shù)監(jiān)督服務(wù)有限公司已經(jīng)成為了許許多多產(chǎn)品的安全代號(hào)。主要體系認(rèn)證包括企業(yè)質(zhì)量管理體系,生產(chǎn)環(huán)境體系,生產(chǎn)碳排放方案等。D?V
當(dāng)前從建筑綠色標(biāo)準(zhǔn)體系方面提出了對(duì)于大數(shù)據(jù)能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個(gè)項(xiàng)目實(shí)施中引入大數(shù)據(jù)能源管理,在建筑的設(shè)計(jì)規(guī)劃階段、施工階段、運(yùn)營(yíng)階段等多個(gè)階段通過(guò)數(shù)據(jù)化的能源管理系統(tǒng),實(shí)現(xiàn)建筑的低碳、綠色、智能。
工業(yè)自動(dòng)化軟件商(Wonderware ),工業(yè)
Wonderware 作為系統(tǒng)軟件涉及的專(zhuān)業(yè)企業(yè),對(duì)于大數(shù)據(jù)的計(jì)算和運(yùn)用是從比較“IT”的角度出發(fā)的。Wonderware
的實(shí)時(shí)數(shù)據(jù)管理軟件能夠提供一個(gè)工廠所需要的從建立到報(bào)廢的所有實(shí)時(shí)數(shù)據(jù)。目前已經(jīng)退出移動(dòng)版本,工程總監(jiān)在手機(jī)上就能夠隨時(shí)隨地監(jiān)控設(shè)備的運(yùn)行狀況。目前全球超過(guò)三分之一的工廠應(yīng)用
Wonderware 公司的軟件解決方案。
(3)第三產(chǎn)業(yè)
這一個(gè)部分的內(nèi)容比較多。這里只提出一些典型的應(yīng)用例子,歡迎補(bǔ)充。
健康與醫(yī)療:的健身腕帶可以收集有關(guān)我們走路或者慢跑的數(shù)據(jù),例如行走步數(shù)、卡路里消耗、睡眠時(shí)長(zhǎng)等數(shù)據(jù)與健康記錄來(lái)改善我們的健康狀況;Early
Detection of Patient
Deterioration等公司正在開(kāi)發(fā)床墊監(jiān)測(cè)傳感器,自動(dòng)監(jiān)測(cè)和記錄心臟速率、呼吸速率、運(yùn)動(dòng)和睡眠活動(dòng)。該傳感器收集的數(shù)據(jù)以無(wú)線方式被發(fā)送到智能手機(jī)和平板電腦進(jìn)行進(jìn)一步分析;美國(guó)公共衛(wèi)生協(xié)會(huì)(APHA:
American Public Health Association)開(kāi)發(fā)Flu Near
You用來(lái)的癥狀,通過(guò)大數(shù)據(jù)分析生成報(bào)告顯示用戶所在地區(qū)的流感活動(dòng)。
視頻:互聯(lián)網(wǎng)電視能夠追蹤你正在看的內(nèi)容,看了多長(zhǎng)時(shí)間,甚至能夠識(shí)別多少人坐在電視機(jī)前,來(lái)確定這個(gè)頻道的流行度。Netflix
美國(guó)國(guó)內(nèi)規(guī)模最大的商業(yè)視頻流供應(yīng)商,收集的數(shù)據(jù)包括用戶在看什么、喜歡在什么時(shí)段觀看、在哪里觀看以及使用哪些設(shè)備觀看等。甚至記錄用戶在哪視頻的哪個(gè)時(shí)間點(diǎn)后退、快進(jìn)或者暫停,乃至看到哪里直接將視頻關(guān)掉等信息。典型的應(yīng)用是
Netflix 公司利用數(shù)據(jù)說(shuō)服 BBC 重新翻拍了電視連結(jié)劇《紙牌屋》,而且成功的挖掘出演員 Kevin Spacey 和導(dǎo)演 David
Fincher 的支持者與原劇集粉絲的關(guān)聯(lián)性,確定新劇拍攝的最佳人選。
交通:《車(chē)來(lái)了》通過(guò)分析公交車(chē)上 GPS 定位系統(tǒng)每天的位置和時(shí)間數(shù)據(jù),結(jié)合時(shí)刻表預(yù)測(cè)出每一輛公交車(chē)的到站時(shí)間;WNYC
開(kāi)發(fā)的Transit Time NYC通過(guò)開(kāi)源行程平臺(tái)(Github:OpenTripPlanner和MTA )獲取的數(shù)據(jù)將紐約市劃分成
2930 個(gè)六邊形,模擬出從每一個(gè)六邊形中點(diǎn)到邊緣的時(shí)間(地鐵和步行,時(shí)間是上午九點(diǎn)),最終建模出 4290985
條虛擬線路。用戶只需點(diǎn)擊地圖或者輸入地址就能知道地鐵到達(dá)每個(gè)位置的時(shí)間;實(shí)時(shí)交通數(shù)據(jù)采集商INRIX-Traffic的口號(hào)是(永不遲到!^^),通過(guò)記錄每位用戶在行駛過(guò)程中的實(shí)時(shí)數(shù)據(jù)例如行駛車(chē)速,所在位置等信息并進(jìn)行數(shù)據(jù)匯總分析,而后計(jì)算出最佳線路,讓用戶能夠避開(kāi)擁堵。
電子商務(wù):Decide
是一家預(yù)測(cè)商品價(jià)格并為消費(fèi)者提出購(gòu)買(mǎi)時(shí)間建議的創(chuàng)業(yè)公司,通過(guò)抓取亞馬遜、百思買(mǎi)、新蛋及全球各大網(wǎng)站上數(shù)以十億計(jì)的數(shù)據(jù)進(jìn)行分析,最終整合在一個(gè)頁(yè)面中方便消費(fèi)者對(duì)比查看,并且能夠預(yù)測(cè)產(chǎn)品的價(jià)格趨勢(shì),幫助用戶確定商品的最好購(gòu)買(mǎi)時(shí)機(jī)。已經(jīng)于
2013 年被 eBay 收購(gòu)。
政治:奧巴馬在總統(tǒng)競(jìng)選中使用大數(shù)據(jù)分析來(lái)收集選民的數(shù)據(jù),讓他可以專(zhuān)注于對(duì)他最感興趣的選民,谷歌執(zhí)行董事長(zhǎng) Eric Schmidt
當(dāng)時(shí)向奧巴馬的大數(shù)據(jù)分析團(tuán)隊(duì)投資數(shù)百萬(wàn)美元并聚攏核心成員成立了Civis
Analytics咨詢公司,該公司將會(huì)將在奧巴馬連任競(jìng)選中所獲得的經(jīng)驗(yàn)應(yīng)用到商業(yè)和非營(yíng)利行業(yè)中。(了解更多可以看看 MIT technology
的文章The Definitive Story of How President Obama Mined Voter Data to Win A
Second Term)
金融:ZestFinance Big Data Underwriting 是由是 Google 的前任 CIO,Douglas
Merrill
創(chuàng)立金融數(shù)據(jù)分析服務(wù)提供商,使用機(jī)器學(xué)習(xí)算法和大數(shù)據(jù)為放款者提供承保模式,旨在為那些個(gè)人信用不良或者不滿足傳統(tǒng)銀行貸款資格的個(gè)人提供服務(wù)。公司使用分析模型對(duì)每位信貸申請(qǐng)人的上萬(wàn)條原始信息數(shù)據(jù)進(jìn)行分析,只需幾秒時(shí)間便可以得出超過(guò)十萬(wàn)個(gè)行為指標(biāo)。目前違約率比行業(yè)平均水平低
60%左右。另外一個(gè)不得不提到的是風(fēng)險(xiǎn)管理先驅(qū)者FICO Predictive Analytics, Big Data Analytics
and FICO Credit Scores,通過(guò)大數(shù)據(jù)分析為銀行和信用卡發(fā)卡機(jī)構(gòu)、保險(xiǎn)、醫(yī)療保健、政府和零售行業(yè)提供服務(wù)。FICO
信用分計(jì)算的基本思想是:把借款人過(guò)去的信用歷史資料與數(shù)據(jù)庫(kù)中的全體借款人的信用習(xí)慣相比較,檢查借款人的發(fā)展趨勢(shì)跟經(jīng)常違約、隨意透支、甚至申請(qǐng)破產(chǎn)等各種陷入財(cái)務(wù)困境的借款人的發(fā)展趨勢(shì)是否相似。FICO
已經(jīng)為三分之二的世界 100
強(qiáng)銀行提供服務(wù),提高了客戶忠誠(chéng)度和盈利率、減少欺詐損失、管理信貸風(fēng)險(xiǎn)、滿足監(jiān)管與競(jìng)爭(zhēng)要求并快速獲取市場(chǎng)份額。想了解更多的企業(yè)可以看看附錄中《經(jīng)濟(jì)學(xué)人》的文章《Big
data: Crunching the numbers》。
電信:美國(guó) T-mobiles采用Informatica - The Data Integration
Company平臺(tái)開(kāi)展大數(shù)據(jù)工作,通過(guò)集成數(shù)據(jù)綜合分析客戶流失的原因,根據(jù)分析結(jié)果優(yōu)化網(wǎng)絡(luò)布局為客戶提供了更好的體驗(yàn),在一個(gè)季度內(nèi)將流失率減半;韓國(guó)
SK telecom新成立一家公司SK
Planet,通過(guò)大數(shù)據(jù)分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業(yè)務(wù)防止用戶流失。美國(guó)AT&T 公司將記錄用戶在
Wifi
網(wǎng)絡(luò)中的地理位置、網(wǎng)絡(luò)瀏覽歷史記錄以及使用的應(yīng)用等數(shù)據(jù)銷(xiāo)售給廣告客戶。比如當(dāng)用戶距離商家很近時(shí),就有可能收到該商家提供的折扣很大的電子優(yōu)惠券。英國(guó)BT
- Broadband公司發(fā)布了新的安全數(shù)據(jù)分析服務(wù) Assure Analytics—BT news
releases,幫助企業(yè)收集、管理和評(píng)估大數(shù)據(jù)集,將這些數(shù)據(jù)通過(guò)可視化的方式呈現(xiàn)給企業(yè),幫助企業(yè)改進(jìn)決策。
一般來(lái)說(shuō)盈利性質(zhì)的商業(yè)公司和企業(yè)都不會(huì)輕易泄露自己的數(shù)據(jù)、建模方法和分析過(guò)程,所以還有很多大家不知道的神秘應(yīng)用潛伏在黑暗里,如同《三體》中的”黑暗森林法則“。
宇宙就是一座黑暗森林,每個(gè)文明都是帶槍的獵人,像幽靈般潛行于林間,輕輕撥開(kāi)擋路的樹(shù)枝,竭力不讓腳步發(fā)出一點(diǎn)兒聲音,連呼吸都必須小心翼翼:他必須小心,因?yàn)榱种械教幎加信c他一樣潛行的獵人,如果他發(fā)現(xiàn)了別的生命,能做的只有一件事:開(kāi)槍消滅之。在這片森林中,他人就是地獄,就是永恒的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對(duì)費(fèi)米悖論的解釋。
二、大數(shù)據(jù)的定義
大數(shù)據(jù)(Big Data)是指“無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?!睒I(yè)界通常用 4 個(gè) V(即 Volume、Variety、Value、Velocity)來(lái)概括大數(shù)據(jù)的特征。
1. 數(shù)據(jù)體量巨大(Volume)。截至目前,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是 200PB,而歷史上全人類(lèi)說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約是 5EB(1EB=210PB)。
2. 數(shù)據(jù)類(lèi)型繁多(Variety)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類(lèi)型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。
3. 價(jià)值密度低(Value)。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
4. 處理速度快(Velocity)。大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù) IDC 的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到 2020 年,全球數(shù)據(jù)使用量將達(dá)到 35.2ZB。
看看專(zhuān)家們?cè)趺凑f(shuō)。
舍恩伯格,大數(shù)據(jù)時(shí)代
不是隨機(jī)樣本,而是全體數(shù)據(jù);不是精確性,而是混雜性;不是因果關(guān)系,而是相關(guān)關(guān)系。
埃里克·西格爾,大數(shù)據(jù)預(yù)測(cè)
大數(shù)據(jù)時(shí)代下的核心,預(yù)測(cè)分析已在商業(yè)和社會(huì)中得到廣泛應(yīng)用。隨著越來(lái)越多的數(shù)據(jù)被記錄和整理,未來(lái)預(yù)測(cè)分析必定會(huì)成為所有領(lǐng)域的關(guān)鍵技術(shù)。
城田真琴,大數(shù)據(jù)的沖擊
從數(shù)據(jù)的類(lèi)別上看,“大數(shù)據(jù)”指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
三、大數(shù)據(jù)的價(jià)值
了解了大數(shù)據(jù)的典型應(yīng)用,理解了大數(shù)據(jù)的定義。這時(shí)相信在每個(gè)人的心中,關(guān)于大數(shù)據(jù)的價(jià)值都有了自己的答案。
2010 年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數(shù)人同樣是可以預(yù)測(cè)的。這意味著我們能夠根據(jù)個(gè)體之前的行為軌跡預(yù)測(cè)他或者她未來(lái)行蹤的可能性,即 93%的人類(lèi)行為可預(yù)測(cè)。
而大數(shù)定理告訴我們,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它概率?!坝幸?guī)律的隨機(jī)事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計(jì)特性。
舉個(gè)例子,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來(lái)是偶然的,但當(dāng)我們上拋硬幣的次數(shù)足夠多后,達(dá)到上萬(wàn)次甚至幾十萬(wàn)幾百萬(wàn)次以后,我們就會(huì)發(fā)現(xiàn),硬幣每一面向上的次數(shù)約占總次數(shù)的二分之一。偶然中包含著某種必然。
隨著計(jì)算機(jī)的處理能力的日益強(qiáng)大,你能獲得的數(shù)據(jù)量越大,你能挖掘到的價(jià)值就越多。
實(shí)驗(yàn)的不斷反復(fù)、大數(shù)據(jù)的日漸積累讓人類(lèi)發(fā)現(xiàn)規(guī)律,預(yù)測(cè)未來(lái)不再是科幻電影里的讀心術(shù)。
如果銀行能及時(shí)地了解風(fēng)險(xiǎn),我們的經(jīng)濟(jì)將更加強(qiáng)大。
如果政府能夠降低欺詐開(kāi)支,我們的稅收將更加合理。
如果醫(yī)院能夠更早發(fā)現(xiàn)疾病,我們的身體將更加健康。
如果電信公司能夠降低成本,我們的話費(fèi)將更加便宜。
如果交通動(dòng)態(tài)天氣能夠掌握,我們的出行將更加方便。
如果商場(chǎng)能夠動(dòng)態(tài)調(diào)整庫(kù)存,我們的商品將更加實(shí)惠。
最終,我們都將從大數(shù)據(jù)分析中獲益。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10