
為什么大數(shù)據(jù)會(huì)如此轟動(dòng)?
1、存在的背景
基礎(chǔ)設(shè)施的巨大飛躍,數(shù)據(jù)儲(chǔ)存技術(shù)、網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,為大數(shù)據(jù)時(shí)代的到來(lái)準(zhǔn)備了物質(zhì)基礎(chǔ)。
物聯(lián)網(wǎng)本質(zhì)上就是更多采集數(shù)據(jù)的入口和節(jié)點(diǎn);云計(jì)算培養(yǎng)了服務(wù)的商業(yè)模式和集中建設(shè)降低單位計(jì)算和存儲(chǔ)成本。到了移動(dòng)互聯(lián)網(wǎng)就更有意思了:第一個(gè)特點(diǎn)是身份,在合適的時(shí)間,合適的地點(diǎn),將合適的信息送給合適的人,你要知道你的對(duì)方是誰(shuí),他有什么喜好,他現(xiàn)在是什么狀態(tài),沒(méi)有這個(gè)精準(zhǔn)身份的信息,一切都無(wú)從談起。第二個(gè)就是連接,雙向適時(shí)的互動(dòng)連接,有了網(wǎng)絡(luò)以后,你想要什么信息,就從電腦上去索取。手機(jī)我們一半除了拿信息以外,我們另外一半推信息,但是這個(gè)帶來(lái)的變化也就是信息流動(dòng)能夠更加適時(shí)了。第三個(gè)是手機(jī)主要的特性,信息是有位置屬性的。最后是感應(yīng),我們電腦上已經(jīng)不會(huì)再有太多的感應(yīng)器了,手機(jī)上的感應(yīng)器角度會(huì)越來(lái)越多,可穿戴的產(chǎn)品,未來(lái)我們的手機(jī)可以聞到味道,可以感受到甲醛超標(biāo),可以感受到電磁輻射。這三樣結(jié)合在一起本質(zhì)上就是產(chǎn)生、處理和應(yīng)用了大數(shù)據(jù),通過(guò)各種各樣新的技術(shù)和來(lái)幫助我們解決各種各樣的問(wèn)題,重新構(gòu)建信息流,資金流、物流。
2 、數(shù)據(jù)究竟有多大
大數(shù)據(jù)帶動(dòng)方法論上的變化本質(zhì)上是人的行為越來(lái)越被虛擬化,以前歷史上誰(shuí)都不知道你在互聯(lián)網(wǎng)上是人還是狗,現(xiàn)在處處行跡處處痕,語(yǔ)言分析、自然語(yǔ)義處理、圖像處理、信號(hào)處理、關(guān)系預(yù)測(cè)來(lái)精準(zhǔn)預(yù)計(jì),導(dǎo)致全球數(shù)據(jù)量每?jī)赡攴环?。隨著Iphone和各種安卓普及,每個(gè)人在云端都有幾個(gè)G幾個(gè)T的網(wǎng)盤(pán),存著各種各樣的信息,大到一定程度,根本沒(méi)法處理,我們叫做狹義的大數(shù)據(jù)。有很多的新的計(jì)算機(jī)的處理方式,存儲(chǔ)方式,和數(shù)學(xué)建模的方式去分析這些數(shù)據(jù),那數(shù)據(jù)根據(jù)訪問(wèn)頻次又分冷數(shù)據(jù)和熱數(shù)據(jù)。當(dāng)年由于熱數(shù)據(jù)所帶來(lái)的信息量意義更大,關(guān)注度集中在此,數(shù)學(xué)上的方法也是基于統(tǒng)計(jì)抽樣。奇妙的關(guān)聯(lián)度:但隨著計(jì)算和存儲(chǔ)成本的降低,發(fā)現(xiàn)可以處理全量數(shù)據(jù),全量數(shù)據(jù)堆積在一起發(fā)生了非常多奇妙的現(xiàn)象。有些對(duì)當(dāng)前的科學(xué)都有重大影響,當(dāng)年基于統(tǒng)計(jì)、抽樣建立起來(lái)的模型極有可能是錯(cuò)的,比如開(kāi)普敦定律和冥王星的失誤。這個(gè)可以參考我和國(guó)棟共著的大數(shù)據(jù)時(shí)代的歷史機(jī)遇一書(shū)。所以在狹義的定義下會(huì)出現(xiàn)IBM和IDC定義的4個(gè)V,數(shù)據(jù)規(guī)模(Volume)、快速(Velocity)、多樣的類(lèi)型(Variety)據(jù)價(jià)值(Value)。
3、但是我認(rèn)為為什么大數(shù)據(jù)會(huì)如此轟動(dòng)是深遠(yuǎn)的社會(huì)背景,更重要是數(shù)據(jù)思維
首先就是我一直提的數(shù)據(jù)思維,所謂的數(shù)據(jù)思維,要重視數(shù)據(jù)的全面性,而非隨機(jī)的抽樣性。其次:就是關(guān)注數(shù)據(jù)的復(fù)雜性,弱化精確性,以前我們就有很多人要求一是一,二是二,現(xiàn)在大數(shù)據(jù)里面我們就不要求那么精了,我們要求一個(gè)大的框架,模糊的準(zhǔn)確度趨勢(shì)的判斷第三大數(shù)據(jù)是一種重新評(píng)價(jià)企業(yè)、商業(yè)模式的新方法了,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務(wù)模式,甚至重構(gòu)其文化和組織。
我定義了從五大維度:活性、顆粒度、維度時(shí)空、情緒第一個(gè)叫活性,基本上你在互聯(lián)網(wǎng)公司里面,比如你用阿里的服務(wù),可能每天使用3到5次,但是你知道銀行的網(wǎng)點(diǎn)你可能一個(gè)月或者更多時(shí)間才去一次。第二個(gè)稱(chēng)之為叫顆粒度,就是你在電商的平臺(tái)上從你進(jìn)店到購(gòu)物、到形成采購(gòu)、到物流、到運(yùn)送、到配送、到最后的評(píng)價(jià)跟分享,所有的環(huán)節(jié)都給你充分的記錄起來(lái),這是很重要的,我稱(chēng)之為顆粒度,銀行我們現(xiàn)在看到的信息的數(shù)據(jù)或者金融的數(shù)據(jù)就是水電、煤氣加成本,再加上你的工資到賬日期,這個(gè)數(shù)據(jù)是非常粗糙的。三個(gè)是稱(chēng)之為維度,像易寶支付,當(dāng)你使用他的數(shù)據(jù)以后你的數(shù)據(jù)就留在他那里面,這樣有更多的維度進(jìn)行數(shù)據(jù)相關(guān)的處理和分析。第四遠(yuǎn)近。當(dāng)某個(gè)人有貸款需求的時(shí)候,我的金融機(jī)構(gòu),我的互聯(lián)網(wǎng)公司,很有可能是第一個(gè)能知道你有貸款需求的,或者在線的時(shí)候知道,我可能第一時(shí)間就知道這個(gè)客戶,銀行知道這個(gè)過(guò)程中間還有很多,這是一個(gè),這是遠(yuǎn)近。最后一個(gè)我們稱(chēng)之為叫情緒,你在微博上發(fā)的任何一條信息都是帶有情感的,你有情感之后就知道你的狀態(tài),就知道采取任何的營(yíng)銷(xiāo)是不是有用。
4 、接下來(lái)發(fā)生怎樣的事情泛互聯(lián)網(wǎng)化
軟件、硬件會(huì)免費(fèi),成為收集數(shù)據(jù)的入口行業(yè)垂直整合:一開(kāi)始是軟件做硬件、互聯(lián)網(wǎng)公司做硬件和軟件,接下來(lái)就是電商做金融、金融做電商、軟件公司提供增值服務(wù)。為什么?一旦需要無(wú)線的靠近客戶之后,就要服務(wù)客戶需求的一切,行業(yè)的邊界在不斷被打破數(shù)據(jù)成為資產(chǎn):數(shù)據(jù)會(huì)變得越來(lái)越重要,是一切商業(yè)模式起源和重構(gòu)的基礎(chǔ)。
5、在中國(guó)和全球的情況全球范圍看,這種變革正在發(fā)生
互聯(lián)網(wǎng)行業(yè)首當(dāng)其沖,接著是商業(yè)智能與咨詢(xún)服務(wù)領(lǐng)域、零售行業(yè),還包括醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文……大數(shù)據(jù)催生的數(shù)據(jù)服務(wù)意識(shí)和能力,正在影響這個(gè)社會(huì)的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會(huì)的其他各個(gè)領(lǐng)域,并催生了了各行各業(yè)的變革力量。也就是我們所說(shuō)的跨界顛覆者。我把大數(shù)據(jù)技術(shù)分為傳統(tǒng)企業(yè)級(jí)別,和創(chuàng)新市場(chǎng)。企業(yè)級(jí)別市場(chǎng)還是IBM、EMC、惠普、Oracle新瓶裝舊酒,那些商業(yè)智能數(shù)據(jù)處理的老產(chǎn)品來(lái)取代,更多的只是忽悠客戶來(lái)干干數(shù)據(jù)分析的活。當(dāng)時(shí)在另外一方面,像googlefacebook,國(guó)內(nèi)的BAT等是真正在考慮大數(shù)據(jù)的。而且以阿里引導(dǎo)的去IOE的大趨勢(shì),也是體現(xiàn)了在未來(lái)移動(dòng)化和大數(shù)據(jù)浪潮下,老外的產(chǎn)品無(wú)法滿足國(guó)內(nèi)快速、開(kāi)源、便捷的增長(zhǎng)需求。在創(chuàng)新市場(chǎng)里面的大數(shù)據(jù)技術(shù):一方面,以開(kāi)源為主。即便是IBM、Oracle等行業(yè)巨擘,也同樣是集成了開(kāi)源技術(shù),和本公司原有產(chǎn)品更好的結(jié)合而已,在新興的大數(shù)據(jù)處理領(lǐng)域,中外公司幾乎站在同一起跑線。單純考慮狹義的大數(shù)據(jù)處理技術(shù)(如Hadoop、MapReduce、模式識(shí)別、機(jī)器學(xué)習(xí)等),中外差距很短左右。如果考慮數(shù)字資產(chǎn)規(guī)模以及利用的技術(shù),中外差距更多體現(xiàn)為意識(shí)上的差距。像阿里已經(jīng)完全取代了IOE的產(chǎn)品,當(dāng)前不僅自己用,而且還提供了阿里云對(duì)外輸出。節(jié)省20億IT開(kāi)支,像亞馬遜已經(jīng)把EC2和S3成為較大的盈利點(diǎn)。而且阿里現(xiàn)在的處理能力每秒達(dá)到1億次,超過(guò)了4大行的綜合(馬云前幾天在人民銀行的忽悠)另一方面,中國(guó)人口和經(jīng)濟(jì)規(guī)模,決定中國(guó)的數(shù)據(jù)資產(chǎn)規(guī)模,冠于全球??陀^上為大數(shù)據(jù)技術(shù)的發(fā)展,提供了演練場(chǎng)。比如我之前在甲骨文的時(shí)候是三大運(yùn)營(yíng)商的咨詢(xún)經(jīng)理,每次遇到客戶客戶都提,我們的數(shù)據(jù)量全球第一。神槍手是靠子彈磨練出來(lái)的,好的產(chǎn)品也是靠數(shù)據(jù)量出來(lái)的。在阿里,京東、百度相關(guān)公司,不管是客戶需求驅(qū)動(dòng)、還是成本驅(qū)動(dòng)都開(kāi)始了替代過(guò)程,我認(rèn)為這個(gè)變化趨勢(shì)會(huì)進(jìn)一步傳導(dǎo)到金融、電信、政府等重要IT投入行業(yè)中。
6 、幾家典型公司的大數(shù)據(jù)
百度擁有中國(guó)最大的消費(fèi)者行為數(shù)據(jù)庫(kù),覆蓋95%的中國(guó)網(wǎng)民,日均響應(yīng)50億次搜索請(qǐng)求,搜索市場(chǎng)占比達(dá)80%,百度聯(lián)盟,60萬(wàn)聯(lián)盟合作伙伴每天有50億次的日均行為產(chǎn)生,這些構(gòu)成了巨大數(shù)據(jù)的基礎(chǔ)。變現(xiàn)模式:推百度指數(shù),并在百度指數(shù)的基礎(chǔ)上建立百度風(fēng)云榜;百度數(shù)據(jù)中心,研究機(jī)構(gòu)的方式網(wǎng)絡(luò)搜索咨詢(xún)報(bào)告。廣告站長(zhǎng)和開(kāi)發(fā)組提供的百度(移動(dòng))統(tǒng)計(jì)以及相關(guān)的開(kāi)發(fā)者服務(wù)工具。
騰訊則超過(guò)7.836億QQ活躍賬戶,4.69億微博用戶和超過(guò)1億的視頻用戶、5.976億QQ空間用戶,微信、手機(jī)管家等帶來(lái)的移動(dòng)用戶也超過(guò)了4億,海外用戶快超過(guò)1億。除卻海量用戶,騰訊“N個(gè)產(chǎn)品×N個(gè)平臺(tái)×N個(gè)終端×N個(gè)用戶關(guān)系”的龐大服務(wù)矩陣,帶來(lái)數(shù)據(jù)的非結(jié)構(gòu)化、碎片化、海量化。變現(xiàn)工具只有:騰訊分析和騰訊羅盤(pán)。
馬云宣稱(chēng)平臺(tái)、金融和數(shù)據(jù)是阿里未來(lái)的三大戰(zhàn)略方向。阿里未來(lái)本質(zhì)上是一個(gè)數(shù)據(jù)公司,電商越來(lái)越離不開(kāi)數(shù)據(jù),金融的核心也是數(shù)據(jù)。收購(gòu)的新浪微博、友盟、高德、丁丁等就是為了圈數(shù)據(jù)。相關(guān)的東西我都噴過(guò)數(shù)百次了,就不詳細(xì)展開(kāi)。負(fù)責(zé)人:車(chē)品覺(jué),有意思的產(chǎn)品:內(nèi)部的淘數(shù)據(jù)、KPI系統(tǒng)、數(shù)據(jù)門(mén)戶、活動(dòng)直播間、賣(mài)家云圖、頁(yè)面點(diǎn)擊、黃金策;給客戶提供的數(shù)據(jù)魔方、無(wú)量神針和類(lèi)目360、淘寶指數(shù)最具備劃時(shí)代意義的2012年阿里又推出了“聚石塔”產(chǎn)品可提供數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算兩類(lèi)服務(wù)2012年“雙11”那次191億元的大促銷(xiāo)當(dāng)天,“聚石塔”處理的訂單超過(guò)天貓總量的20%,比平時(shí)增長(zhǎng)20倍。阿里金融是大數(shù)據(jù)衍生產(chǎn)品開(kāi)發(fā)的一個(gè)范例。阿里由于電商特性他在應(yīng)用上走得是最遠(yuǎn)的。
7 、產(chǎn)業(yè)鏈的分類(lèi)與規(guī)模
相關(guān)的基礎(chǔ)產(chǎn)業(yè)還挺多的,一是數(shù)據(jù)技術(shù)產(chǎn)業(yè),包括硬件方面的智能管道、物聯(lián)網(wǎng)、服務(wù)器、存儲(chǔ)、傳輸、智能移動(dòng)設(shè)備等,軟件方面的語(yǔ)言、數(shù)據(jù)平臺(tái)、工具、結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)庫(kù)、應(yīng)用軟件等,服務(wù)方面的IDC、云計(jì)算、WEB應(yīng)用等;二是數(shù)據(jù)采集,包括定位、支付、SNS、郵件等行業(yè);三是數(shù)據(jù)工業(yè),包括數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)咨詢(xún)等產(chǎn)業(yè);四是數(shù)據(jù)應(yīng)用業(yè):比如基于數(shù)據(jù)產(chǎn)生的互聯(lián)網(wǎng)金融。
8、我對(duì)大數(shù)據(jù)總結(jié)了一些東西,概括:
一種思維:數(shù)據(jù)思維
兩大推動(dòng) 極致體驗(yàn)、長(zhǎng)尾效應(yīng)
三大趨勢(shì) ,泛互聯(lián)網(wǎng)、垂直一體化、數(shù)據(jù)是資產(chǎn)
四大步驟 入口、流量、數(shù)據(jù)、變現(xiàn)
五大標(biāo)準(zhǔn) 活性、顆粒度、維度 時(shí)空、情緒
六大模式 數(shù)據(jù)、信息、咨詢(xún)、媒體、數(shù)據(jù)使能、技術(shù)
七字心決 專(zhuān)注、極致、口碑、快
9、其他重要相觀點(diǎn)
下一步國(guó)家必將在更高層次的產(chǎn)品和服務(wù)上替代外國(guó)的東西就像電視、冰箱、汽車(chē)一樣,主要在信息和精密制造。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11