
為什么大數據會如此轟動
1、存在的背景
基礎設施的巨大飛躍,數據儲存技術、網絡技術的迅猛發(fā)展,為大數據時代的到來準備了物質基礎。
物聯(lián)網本質上就是更多采集數據的入口和節(jié)點;云計算培養(yǎng)了服務的商業(yè)模式和集中建設降低單位計算和存儲成本。到了移動互聯(lián)網就更有意思了:第一個特點是身份,在合適的時間,合適的地點,將合適的信息送給合適的人,你要知道你的對方是誰,他有什么喜好,他現(xiàn)在是什么狀態(tài),沒有這個精準身份的信息,一切都無從談起。第二個就是連接,雙向適時的互動連接,有了網絡以后,你想要什么信息,就從電腦上去索取。手機我們一半除了拿信息以外,我們另外一半推信息,但是這個帶來的變化也就是信息流動能夠更加適時了。第三個是手機主要的特性,信息是有位置屬性的。最后是感應,我們電腦上已經不會再有太多的感應器了,手機上的感應器角度會越來越多,可穿戴的產品,未來我們的手機可以聞到味道,可以感受到甲醛超標,可以感受到電磁輻射。這三樣結合在一起本質上就是產生、處理和應用了大數據,通過各種各樣新的技術和來幫助我們解決各種各樣的問題,重新構建信息流,資金流、物流。
2 、數據究竟有多大
大數據帶動方法論上的變化本質上是人的行為越來越被虛擬化,以前歷史上誰都不知道你在互聯(lián)網上是人還是狗,現(xiàn)在處處行跡處處痕,語言分析、自然語義處理、圖像處理、信號處理、關系預測來精準預計,導致全球數據量每兩年翻一翻。隨著Iphone和各種安卓普及,每個人在云端都有幾個G幾個T的網盤,存著各種各樣的信息,大到一定程度,根本沒法處理,我們叫做狹義的大數據。有很多的新的計算機的處理方式,存儲方式,和數學建模的方式去分析這些數據,那數據根據訪問頻次又分冷數據和熱數據。當年由于熱數據所帶來的信息量意義更大,關注度集中在此,數學上的方法也是基于統(tǒng)計抽樣。奇妙的關聯(lián)度:但隨著計算和存儲成本的降低,發(fā)現(xiàn)可以處理全量數據,全量數據堆積在一起發(fā)生了非常多奇妙的現(xiàn)象。有些對當前的科學都有重大影響,當年基于統(tǒng)計、抽樣建立起來的模型極有可能是錯的,比如開普敦定律和冥王星的失誤。這個可以參考我和國棟共著的大數據時代的歷史機遇一書。所以在狹義的定義下會出現(xiàn)IBM和IDC定義的4個V,數據規(guī)模(Volume)、快速(Velocity)、多樣的類型(Variety)據價值(Value)。
3、但是我認為為什么大數據會如此轟動是深遠的社會背景,更重要是數據思維
首先就是我一直提的數據思維,所謂的數據思維,要重視數據的全面性,而非隨機的抽樣性。其次:就是關注數據的復雜性,弱化精確性,以前我們就有很多人要求一是一,二是二,現(xiàn)在大數據里面我們就不要求那么精了,我們要求一個大的框架,模糊的準確度趨勢的判斷第三大數據是一種重新評價企業(yè)、商業(yè)模式的新方法了,數據成為核心的資產,并將深刻影響企業(yè)的業(yè)務模式,甚至重構其文化和組織。
我定義了從五大維度:活性、顆粒度、維度時空、情緒第一個叫活性,基本上你在互聯(lián)網公司里面,比如你用阿里的服務,可能每天使用3到5次,但是你知道銀行的網點你可能一個月或者更多時間才去一次。第二個稱之為叫顆粒度,就是你在電商的平臺上從你進店到購物、到形成采購、到物流、到運送、到配送、到最后的評價跟分享,所有的環(huán)節(jié)都給你充分的記錄起來,這是很重要的,我稱之為顆粒度,銀行我們現(xiàn)在看到的信息的數據或者金融的數據就是水電、煤氣加成本,再加上你的工資到賬日期,這個數據是非常粗糙的。三個是稱之為維度,像易寶支付,當你使用他的數據以后你的數據就留在他那里面,這樣有更多的維度進行數據相關的處理和分析。第四遠近。當某個人有貸款需求的時候,我的金融機構,我的互聯(lián)網公司,很有可能是第一個能知道你有貸款需求的,或者在線的時候知道,我可能第一時間就知道這個客戶,銀行知道這個過程中間還有很多,這是一個,這是遠近。最后一個我們稱之為叫情緒,你在微博上發(fā)的任何一條信息都是帶有情感的,你有情感之后就知道你的狀態(tài),就知道采取任何的營銷是不是有用。
4 、接下來發(fā)生怎樣的事情泛互聯(lián)網化
軟件、硬件會免費,成為收集數據的入口行業(yè)垂直整合:一開始是軟件做硬件、互聯(lián)網公司做硬件和軟件,接下來就是電商做金融、金融做電商、軟件公司提供增值服務。為什么?一旦需要無線的靠近客戶之后,就要服務客戶需求的一切,行業(yè)的邊界在不斷被打破數據成為資產:數據會變得越來越重要,是一切商業(yè)模式起源和重構的基礎。
5、在中國和全球的情況全球范圍看,這種變革正在發(fā)生
互聯(lián)網行業(yè)首當其沖,接著是商業(yè)智能與咨詢服務領域、零售行業(yè),還包括醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文……大數據催生的數據服務意識和能力,正在影響這個社會的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經濟、人文以及社會的其他各個領域,并催生了了各行各業(yè)的變革力量。也就是我們所說的跨界顛覆者。我把大數據技術分為傳統(tǒng)企業(yè)級別,和創(chuàng)新市場。企業(yè)級別市場還是IBM、EMC、惠普、Oracle新瓶裝舊酒,那些商業(yè)智能數據處理的老產品來取代,更多的只是忽悠客戶來干干數據分析的活。當時在另外一方面,像googlefacebook,國內的BAT等是真正在考慮大數據的。而且以阿里引導的去IOE的大趨勢,也是體現(xiàn)了在未來移動化和大數據浪潮下,老外的產品無法滿足國內快速、開源、便捷的增長需求。在創(chuàng)新市場里面的大數據技術:一方面,以開源為主。即便是IBM、Oracle等行業(yè)巨擘,也同樣是集成了開源技術,和本公司原有產品更好的結合而已,在新興的大數據處理領域,中外公司幾乎站在同一起跑線。單純考慮狹義的大數據處理技術(如Hadoop、MapReduce、模式識別、機器學習等),中外差距很短左右。如果考慮數字資產規(guī)模以及利用的技術,中外差距更多體現(xiàn)為意識上的差距。像阿里已經完全取代了IOE的產品,當前不僅自己用,而且還提供了阿里云對外輸出。節(jié)省20億IT開支,像亞馬遜已經把EC2和S3成為較大的盈利點。而且阿里現(xiàn)在的處理能力每秒達到1億次,超過了4大行的綜合(馬云前幾天在人民銀行的忽悠)另一方面,中國人口和經濟規(guī)模,決定中國的數據資產規(guī)模,冠于全球??陀^上為大數據技術的發(fā)展,提供了演練場。比如我之前在甲骨文的時候是三大運營商的咨詢經理,每次遇到客戶客戶都提,我們的數據量全球第一。神槍手是靠子彈磨練出來的,好的產品也是靠數據量出來的。在阿里,京東、百度相關公司,不管是客戶需求驅動、還是成本驅動都開始了替代過程,我認為這個變化趨勢會進一步傳導到金融、電信、政府等重要IT投入行業(yè)中。
6 、幾家典型公司的大數據
百度擁有中國最大的消費者行為數據庫,覆蓋95%的中國網民,日均響應50億次搜索請求,搜索市場占比達80%,百度聯(lián)盟,60萬聯(lián)盟合作伙伴每天有50億次的日均行為產生,這些構成了巨大數據的基礎。變現(xiàn)模式:推百度指數,并在百度指數的基礎上建立百度風云榜;百度數據中心,研究機構的方式網絡搜索咨詢報告。廣告站長和開發(fā)組提供的百度(移動)統(tǒng)計以及相關的開發(fā)者服務工具。
騰訊則超過7.836億QQ活躍賬戶,4.69億微博用戶和超過1億的視頻用戶、5.976億QQ空間用戶,微信、手機管家等帶來的移動用戶也超過了4億,海外用戶快超過1億。除卻海量用戶,騰訊“N個產品×N個平臺×N個終端×N個用戶關系”的龐大服務矩陣,帶來數據的非結構化、碎片化、海量化。變現(xiàn)工具只有:騰訊分析和騰訊羅盤。
馬云宣稱平臺、金融和數據是阿里未來的三大戰(zhàn)略方向。阿里未來本質上是一個數據公司,電商越來越離不開數據,金融的核心也是數據。收購的新浪微博、友盟、高德、丁丁等就是為了圈數據。相關的東西我都噴過數百次了,就不詳細展開。負責人:車品覺,有意思的產品:內部的淘數據、KPI系統(tǒng)、數據門戶、活動直播間、賣家云圖、頁面點擊、黃金策;給客戶提供的數據魔方、無量神針和類目360、淘寶指數最具備劃時代意義的2012年阿里又推出了“聚石塔”產品可提供數據存儲、數據計算兩類服務2012年“雙11”那次191億元的大促銷當天,“聚石塔”處理的訂單超過天貓總量的20%,比平時增長20倍。阿里金融是大數據衍生產品開發(fā)的一個范例。阿里由于電商特性他在應用上走得是最遠的。
7 、產業(yè)鏈的分類與規(guī)模
相關的基礎產業(yè)還挺多的,一是數據技術產業(yè),包括硬件方面的智能管道、物聯(lián)網、服務器、存儲、傳輸、智能移動設備等,軟件方面的語言、數據平臺、工具、結構與非結構數據庫、應用軟件等,服務方面的IDC、云計算、WEB應用等;二是數據采集,包括定位、支付、SNS、郵件等行業(yè);三是數據工業(yè),包括數據挖掘、數據分析、數據咨詢等產業(yè);四是數據應用業(yè):比如基于數據產生的互聯(lián)網金融。
8、我對大數據總結了一些東西,概括:
一種思維:數據思維
兩大推動 極致體驗、長尾效應
三大趨勢 ,泛互聯(lián)網、垂直一體化、數據是資產
四大步驟 入口、流量、數據、變現(xiàn)
五大標準 活性、顆粒度、維度 時空、情緒
六大模式 數據、信息、咨詢、媒體、數據使能、技術
七字心決 專注、極致、口碑、快
9、其他重要相觀點
下一步國家必將在更高層次的產品和服務上替代外國的東西就像電視、冰箱、汽車一樣,主要在信息和精密制造。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03