
大數(shù)據(jù)最核心的價值是什么_數(shù)據(jù)分析師
有這樣一段話:社交網絡,讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復雜行為模式。社交網絡,為大數(shù)據(jù)提供了信息匯集、分析的第一手資料。從龐雜的數(shù)據(jù)背后挖掘、分析用戶的行為習慣和喜好,找出更符合用戶“口味”的產品和服務,并結合用戶需求有針對性地調整和優(yōu)化自身,就是大數(shù)據(jù)的價值。 那大數(shù)據(jù)的核心價值到底是什么?
“很多人還沒搞清楚什么是PC互聯(lián)網,移動互聯(lián)網來了,我們還沒搞清楚移動互聯(lián)的時候,大數(shù)據(jù)時代又來了?!薄R云卸任演講
本文嘗試從三大產業(yè)的角度將大數(shù)據(jù)的核心商業(yè)價值分類討論。
首先例舉一些大數(shù)據(jù)的典型應用,然后解釋大數(shù)據(jù)的定義,最后總結大數(shù)據(jù)的價值。
我們知道:
空白處你會填上什么?歡迎大家討論。但是目前可以預測的是,數(shù)據(jù)和內容作為互聯(lián)網的核心,不論是傳統(tǒng)行業(yè)還是新型行業(yè),誰率先與互聯(lián)網融合成功,能夠從大數(shù)據(jù)的金礦中發(fā)現(xiàn)暗藏的規(guī)律,就能夠搶占先機,成為技術改革的標志。
大數(shù)據(jù)挖掘商業(yè)價值的方法主要分為四種:
大數(shù)據(jù)的類型大致可分為三類:
從理論上來看:所有產業(yè)都會從大數(shù)據(jù)的發(fā)展中受益。但由于數(shù)據(jù)缺乏以及從業(yè)人員本身的原因,第一、第二產業(yè)的發(fā)展速度相對于第三產業(yè)來說會遲緩一些。
1985年,我國國家統(tǒng)計局明確地把我國產業(yè)劃分為三大產業(yè):
第三產業(yè)即除第一、第二產業(yè)以外的向全社會提供各種各樣勞務的服務性行業(yè),主要是服務業(yè)。其中第三產業(yè)可具體分為兩大部門:一是流通部門;二是服務部門。再細分又可分為四個層次:
我們可以看出,由于某些客觀原因,相對于第一產業(yè)和第二產業(yè)來說,第三產業(yè)憑借自身的優(yōu)勢,大多匯聚了當前最海量的數(shù)據(jù)以及大批的科研中堅力量。接下來讓我們看一些典型例子,當前新形勢下與三大產業(yè)密切相關的大數(shù)據(jù)應用。
(1).第一產業(yè)
孟山都是一家美國的跨國農業(yè)生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期占據(jù)市場第一個位置。該公司目前也是基因改造(GE)種子的領先生產商,占據(jù)了多種農作物種子70%–100%的市場份額,而在美國本土,更占有整個市場的90%。已經統(tǒng)治了生物工程種子業(yè)務超過十年。
孟山都首先發(fā)起“Green Data Revolution”運動,建立農業(yè)數(shù)據(jù)聯(lián)盟(Open Ag Data Alliance)來統(tǒng)一數(shù)據(jù)標準,讓農民不用懂“高科技”也能享受大數(shù)據(jù)的成果。典型的應用如農場設備制造商John Deere與DuPont Pioneer當前聯(lián)合提供“決策服務(Decision Services)”,農民只需在駕駛室里拿出平板電腦,收集種子監(jiān)視器傳來的數(shù)據(jù),然后將其上傳給服務器,最終服務器返回化肥的配方到農場拖拉機上。
The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節(jié)的天氣保險項目。利用公司特有的數(shù)據(jù)采集與分析平臺,每天從250萬個采集點獲取天氣數(shù)據(jù),并結合大量的天氣模擬、海量的植物根部構造和土質分析等信息對意外天氣風險做出綜合判斷,然后向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。
Solum目標是實現(xiàn)高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發(fā)的No Wait Nitrate系統(tǒng)在田間進行分析即時獲取數(shù)據(jù);也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資后,已累計融資近2000萬美元。
了解更多:
大數(shù)據(jù)對于農業(yè)的發(fā)展會帶來什么影響?或具體到對農場經營會有什么啟示或者帶來什么樣的變化?
(2).第二產業(yè)
2013年9月,工業(yè)和信息化部發(fā)布了《關于印發(fā)信息化和工業(yè)化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯(lián)網在工業(yè)領域的集成創(chuàng)新和應用:
實施物聯(lián)網發(fā)展專項,在重點行業(yè)組織開展試點示范,以傳感器和傳感器網絡、RFID、工業(yè)大數(shù)據(jù)的應用為切入點,重點支持生產過程控制、生產環(huán)境檢測、制造供應鏈跟蹤、遠程診斷管理等物聯(lián)網應用,促進經濟效益提升、安全生產和節(jié)能減排。
大數(shù)據(jù)的業(yè)務多是數(shù)據(jù)驅動型,具有數(shù)據(jù)量大、種類多、實時性高的特點。工業(yè)企業(yè)對數(shù)據(jù)的記錄以往看來主要分為兩種方法:傳統(tǒng)的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數(shù)據(jù)管理方式為企業(yè)生產及質量監(jiān)控埋下了巨大的隱患,也讓數(shù)據(jù)挖掘無從談起。
隨著信息化與工業(yè)化的融合發(fā)展,信息技術滲透到了工業(yè)企業(yè)產業(yè)鏈的各個環(huán)節(jié)。例如Sensor、RFID、Barcode、物聯(lián)網等技術已經在企業(yè)中得到初步應用,工業(yè)大數(shù)據(jù)也開始逐漸得到積累。企業(yè)中生產線高速運轉時機器所產生的數(shù)據(jù)量不亞于計算機數(shù)據(jù),而且數(shù)據(jù)類型多是非結構化數(shù)據(jù),對數(shù)據(jù)的實時性要求也更高。因此工業(yè)大數(shù)據(jù)所面臨的問題和挑戰(zhàn)很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監(jiān)William Ruh認為相對于工業(yè)大數(shù)據(jù)來說,工業(yè)互聯(lián)網(Industrial Internet)才是當前急需的,因為大數(shù)據(jù)本身并沒有讓信息的提取更加智能,業(yè)務比數(shù)據(jù)本身更加重要。他舉了一個核磁共振成像掃描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工業(yè)中,壓力、溫度等數(shù)據(jù)的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數(shù)與一臺機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基于大數(shù)據(jù)的分布式系統(tǒng)上發(fā)布同樣的查詢執(zhí)行一種計算只需要不到一秒鐘。
德國漢德技術監(jiān)督服務有限公司的前身是德國鍋爐檢驗協(xié)會(簡稱TüV)早在1869年,德國鍋爐檢驗協(xié)會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協(xié)會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統(tǒng)開始,到壓力容器,機動車輛,醫(yī)療設備,環(huán)境保護,宇航工業(yè),醫(yī)療產品等等,現(xiàn)在的德國漢德技術監(jiān)督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業(yè)質量管理體系,生產環(huán)境體系,生產碳排放方案等。TüV當前從建筑綠色標準體系方面提出了對于大數(shù)據(jù)能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數(shù)據(jù)能源管理,在建筑的設計規(guī)劃階段、施工階段、運營階段等多個階段通過數(shù)據(jù)化的能源管理系統(tǒng),實現(xiàn)建筑的低碳、綠色、智能。
Wonderware作為系統(tǒng)軟件涉及的專業(yè)企業(yè),對于大數(shù)據(jù)的計算和運用是從比較“IT”的角度出發(fā)的。Wonderware 的實時數(shù)據(jù)管理軟件能夠提供一個工廠所需要的從建立到報廢的所有實時數(shù)據(jù)。目前已經退出移動版本,工程總監(jiān)在手機上就能夠隨時隨地監(jiān)控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟件解決方案。
了解更多:
大數(shù)據(jù)在電力行業(yè)的應用前景有哪些?
(3).第三產業(yè)
這一個部分的內容比較多。這里只提出一些典型的應用例子,歡迎補充。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
一般來說盈利性質的商業(yè)公司和企業(yè)都不會輕易泄露自己的數(shù)據(jù)、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗里,如同《三體》中的”黑暗森林法則“。
宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行于林間,輕輕撥開擋路的樹枝,竭力不讓腳步發(fā)出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發(fā)現(xiàn)了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恒的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!睒I(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
看看專家們怎么說。
不是隨機樣本,而是全體數(shù)據(jù);不是精確性,而是混雜性;不是因果關系,而是相關關系。
大數(shù)據(jù)時代下的核心,預測分析已在商業(yè)和社會中得到廣泛應用。隨著越來越多的數(shù)據(jù)被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。
從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。 它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
了解了大數(shù)據(jù)的典型應用,理解了大數(shù)據(jù)的定義。這時相信在每個人的心中,關于大數(shù)據(jù)的價值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數(shù)人同樣是可以預測的。這意味著我們能夠根據(jù)個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大數(shù)定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它概率。“有規(guī)律的隨機事件”在大量重復出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計特性。
舉個例子,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來是偶然的,但當我們上拋硬幣的次數(shù)足夠多后,達到上萬次甚至幾十萬幾百萬次以后,我們就會發(fā)現(xiàn),硬幣每一面向上的次數(shù)約占總次數(shù)的二分之一。偶然中包含著某種必然。
隨著計算機的處理能力的日益強大,你能獲得的數(shù)據(jù)量越大,你能挖掘到的價值就越多。
實驗的不斷反復、大數(shù)據(jù)的日漸積累讓人類發(fā)現(xiàn)規(guī)律,預測未來不再是科幻電影里的讀心術。
最終,我們都將從大數(shù)據(jù)分析中獲益。
四、結束語。
Here’s the thing about the future.關于未來有一個重要的特征
Every time you look at it,每一次你看到了未來
it changes because you looked at it.它會跟著發(fā)生改變 因為你看到了它
And that changes everything else.然后其它事也跟著一起改變了
數(shù)據(jù)本身不產生價值,如何分析和利用大數(shù)據(jù)對業(yè)務產生幫助才是關鍵。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10