
大數(shù)據(jù)是什么_大數(shù)據(jù)可以做什么_大數(shù)據(jù)實際做了什么_大數(shù)據(jù)要怎么做
“大數(shù)據(jù)”一詞時下的熱門程度無需贅言,這一兩年來互聯(lián)網(wǎng)相關(guān)的任何活動、會議必不可少“大數(shù)據(jù)”板塊。剛剛結(jié)束的第13屆“中國互聯(lián)網(wǎng)大會”也專設(shè)了大數(shù)據(jù)論壇。
對于任何一個大數(shù)據(jù)的從業(yè)者或初接觸者,或許都會有個共同的感觸:大數(shù)據(jù)很有用!大數(shù)據(jù)該怎么用?
關(guān)于大數(shù)據(jù)的著作和文章鋪天蓋地,似乎也共同在傳遞一個信息:越來越多的行業(yè)、人士開始關(guān)注并實際探索大數(shù)據(jù)的應(yīng)用,我們正在一起描繪著大數(shù)據(jù)巨大效用的藍圖,但在實踐的路上,我們都還在起步階段小步前行。
大數(shù)據(jù)根基于互聯(lián)網(wǎng),數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、云計算等互聯(lián)網(wǎng)技術(shù)的發(fā)展為大數(shù)據(jù)的應(yīng)用奠定了基礎(chǔ)。然而實踐應(yīng)用尚處于在探索中前進。同樣作為探索學(xué)習(xí),我想從我個人的理解角度,分享并與大家探討四個問題:大數(shù)據(jù)是什么?大數(shù)據(jù)可以做什么?大數(shù)據(jù)實際做了什么?大數(shù)據(jù)要怎么做?
引用3個比較常用的大數(shù)據(jù)定義:
(1)需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
—— Gartner
(2)海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價值(Value)。
—— IDC
(3)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。
—— Wiki
其他關(guān)于大數(shù)據(jù)的定義也大抵類似,我們可以用幾個關(guān)鍵詞對大數(shù)據(jù)做一個界定。
首先,“規(guī)模大”,這種規(guī)??梢詮膬蓚€維度來衡量,一是從時間序列累積大量的數(shù)據(jù),二是在深度上更加細化的數(shù)據(jù)。
其次,“多樣化”,可以是不同的數(shù)據(jù)格式,如文字、圖片、視頻等,可以是不同的數(shù)據(jù)類別,如人口數(shù)據(jù),經(jīng)濟數(shù)據(jù)等,還可以有不同的數(shù)據(jù)來源,如互聯(lián)網(wǎng)、傳感器等。
第三,“動態(tài)化”。數(shù)據(jù)是不停地變化的,可以隨著時間快速增加大量數(shù)據(jù),也可以是在空間上不斷移動變化的數(shù)據(jù)。
這三個關(guān)鍵詞對大數(shù)據(jù)從形象上做了界定。
但還需要一個關(guān)鍵能力,就是“處理速度快”。如果這么大規(guī)模、多樣化又動態(tài)變化的數(shù)據(jù)有了,但需要很長的時間去處理分析,那不叫大數(shù)據(jù)。從另一個角度,要實現(xiàn)這些數(shù)據(jù)快速處理,靠人工肯定是沒辦法實現(xiàn)的,因此,需要借助于機器實現(xiàn)。
最終,我們借助機器,通過對這些數(shù)據(jù)進行快速的處理分析,獲取想要的信息或者應(yīng)用的整套體系,才能稱為大數(shù)據(jù)。
我們可以用下面的圖示給大數(shù)據(jù)定義:
想要應(yīng)用大數(shù)據(jù),從流程上來說,大概是這樣。
首先我們要有數(shù)據(jù)源,然后對數(shù)據(jù)進行收集和存儲,在這基礎(chǔ)上,再進行分析和應(yīng)用,形成我們的產(chǎn)品和服務(wù),而產(chǎn)品和服務(wù)也會產(chǎn)生新的數(shù)據(jù),這些新數(shù)據(jù)會循環(huán)進入我們的流程中。
當(dāng)這整個循環(huán)體系成為一個智能化的體系,通過機器可以實現(xiàn)自動化,那也許就會成為一種新的模式,不管是商業(yè)的,或者是其他。
然后具體到實際的應(yīng)用中,我認為,大數(shù)據(jù)能夠?qū)崿F(xiàn)的應(yīng)用,可以概括為兩個方向,一是精準化定制,二是預(yù)測。
首先,精準化定制。
主要是針對供需兩方的,獲取需方的個性化需求,幫助供方定準定位目標(biāo),然后依據(jù)需求提供產(chǎn)品,最終實現(xiàn)供需雙方的最佳匹配。
具體應(yīng)用舉例,也可以歸納為三類。
一是個性化產(chǎn)品,比如智能化的搜索引擎,搜索同樣的內(nèi)容,每個人的結(jié)果都不同?;蛘呤且恍┒ㄖ苹男侣劮?wù),或者是網(wǎng)游等。
第二種是精準營銷,現(xiàn)在已經(jīng)比較常見的互聯(lián)網(wǎng)營銷,百度的推廣,淘寶的網(wǎng)頁推廣等,或者是基于地理位置的信息推送,當(dāng)我到達某個地方,會自動推送周邊的消費設(shè)施等。
第三種是選址定位,包括零售店面的選址,或者是公共基礎(chǔ)設(shè)施的選址。
這些全都是通過對用戶需求的大數(shù)據(jù)分析,然后供方提供相對定制化的服務(wù)。
應(yīng)用的第二個方向,預(yù)測。
預(yù)測主要是圍繞目標(biāo)對象,基于它過去、未來的一些相關(guān)因素和數(shù)據(jù)分析,從而提前做出預(yù)警,或者是實時動態(tài)的優(yōu)化。
從具體的應(yīng)用上,也大概可以分為三類。
一是決策支持類的,小到企業(yè)的運營決策,證券投資決策,醫(yī)療行業(yè)的臨床診療支持,以及電子政務(wù)等。
二是風(fēng)險預(yù)警類的,比如疫情預(yù)測,日常健康管理的疾病預(yù)測,設(shè)備設(shè)施的運營維護,公共安全,以及金融業(yè)的信用風(fēng)險管理等。
第三種是實時優(yōu)化類的,比如智能線路規(guī)劃,實時定價等。
以上呢,是各種文獻資料里,對于大數(shù)據(jù)可以用來做什么的一些暢想,事實上也許大數(shù)據(jù)可以做的事情,可以擴展到方方面面。
但是,我們再看現(xiàn)實中,大數(shù)據(jù)實際應(yīng)用到了什么程度呢?
我認為,目前大數(shù)據(jù)真正實現(xiàn)了商業(yè)化的應(yīng)用,只有一種,就是互聯(lián)網(wǎng)營銷。
其他我們前面列舉的方向,會有些初步的應(yīng)用,但基本都還停留在探索的階段。比如疫情預(yù)測,無抵押信用貸款等,對于準確性、精細度、可推廣性等方面還有待推敲。
造成大數(shù)據(jù)實際應(yīng)用與目標(biāo)藍圖之間差距的主要原因是什么,我認為是數(shù)據(jù)源的問題。
你必須先獲得數(shù)據(jù),然后才能應(yīng)用數(shù)據(jù)。
因此,數(shù)據(jù)的可獲取性,成為大數(shù)據(jù)在具體行業(yè)應(yīng)用性評價的一個重要維度。
可以從數(shù)據(jù)的標(biāo)準化、開放性和集中度幾個維度衡量數(shù)據(jù)可獲取性
同時,獲取了數(shù)據(jù)之后,在應(yīng)用數(shù)據(jù)方面,可以從大數(shù)據(jù)應(yīng)用的潛在價值維度來衡量,包括效率的提升、成本降低或者是新模式的產(chǎn)生。
此外,還可以從大數(shù)據(jù)行業(yè)應(yīng)用的可復(fù)制/推廣性的角度來衡量,不僅包括在本行業(yè)內(nèi)的推廣,同時也包括跨行業(yè)的推廣性。
從三個維度,我個人對大數(shù)據(jù)在各行業(yè)應(yīng)用的可能性做了一個定位,但這個定位還是非常定性和粗略的,具體可能還需要對行業(yè)有更多的大數(shù)據(jù)應(yīng)用的探討和探索。
我認為可以從兩個維度發(fā)展,首先一個重點任務(wù)就是要累積數(shù)據(jù),以自身擁有的互聯(lián)網(wǎng)數(shù)據(jù)及大數(shù)據(jù)技術(shù)兩個資源為基礎(chǔ),從一些細分應(yīng)用切入,比如可以先從企業(yè)角度,繼而擴展到行業(yè)甚至跨行業(yè)的角度,從細分應(yīng)用先有一些產(chǎn)品的產(chǎn)出,這會成為獲取更多數(shù)據(jù)的入口,同時也為大數(shù)據(jù)更廣應(yīng)用提供了方向借鑒。
但還有一點,對于平臺型的互聯(lián)網(wǎng)企業(yè),在確定與哪些企業(yè)或者行業(yè)數(shù)據(jù)結(jié)合、應(yīng)用大數(shù)據(jù)時,可以有一些篩選條件,比如,是不是發(fā)揮了平臺屬性,另外,這種應(yīng)用是不是具有可復(fù)制或推廣性,不是只局限于某一個企業(yè)內(nèi),至少是可以應(yīng)用到整個行業(yè)中的。
以上,是我個人對大數(shù)據(jù)的一些思考,也希望可以跟更多的朋友對于大數(shù)據(jù)實際應(yīng)用上有些探討和學(xué)習(xí)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03