
大數(shù)據(jù)小白的一些淺見
近期關(guān)注大數(shù)據(jù)比較多,也接觸了一些大數(shù)據(jù)領(lǐng)域的專業(yè)人士,收獲頗豐。聽了諸多專家的觀點,對南大通用杜國旺總和華云數(shù)據(jù)集團的首席技術(shù)官鄭軍博士觀點深有感觸。在此,基于二位的觀點,談談我對大數(shù)據(jù)發(fā)展的一些看法。
要談論大數(shù)據(jù),如果學究一點,首先要弄清楚的一個問題就是什么是大數(shù)據(jù),怎樣來解構(gòu)大數(shù)據(jù)這個概念。對于此,杜總的分析還是比較清楚的。
在杜總看來,大數(shù)據(jù)分為三個層面:
第一, 畫像數(shù)據(jù),包含人物靜態(tài)畫像、事件動態(tài)畫像和群類畫像。人物靜態(tài)畫像是以人或物為基本線索進行數(shù)據(jù)關(guān)聯(lián)(如:萬科),事件動態(tài)畫像是以事件主題為線索的數(shù)據(jù)關(guān)聯(lián)(如:雷陽事件),Hadoop技術(shù)為實現(xiàn)以上兩個需求提供了良好的技術(shù)支撐。群類畫像是基于二級標引的多維屬性畫像,數(shù)據(jù)源以前兩類為基礎,將典型特征屬性進行標引,然后以某個特征屬性為線索進行關(guān)聯(lián),圖數(shù)據(jù)庫為該需求提供較好的技術(shù)支撐(如地質(zhì)測繪、套牌車發(fā)現(xiàn))。在我看來,杜總實際指的是數(shù)據(jù)的三種類型,這三類數(shù)據(jù)具有某種層度的遞進關(guān)系,后一類比前一類更抽象更有價值,尤其是群類畫像數(shù)據(jù)。實際上,我們所指的大數(shù)據(jù)更多的是指群類畫像數(shù)據(jù),是對很多個體某一特征的抽象概括數(shù)據(jù),這樣的數(shù)據(jù)才更有價值。
第二, 數(shù)據(jù)的統(tǒng)計分析,基于人物或事件的典型特征統(tǒng)計分析或動態(tài)查詢,主要是基于統(tǒng)計概念的(如金融精準營銷),數(shù)據(jù)源一般為典型的結(jié)構(gòu)化數(shù)據(jù),分析方法也較為成熟,mpp數(shù)據(jù)庫為該需求提供快捷方便的技術(shù)支撐。
第三, 數(shù)據(jù)挖掘,這是目前大數(shù)據(jù)應用最難的,也是最有價值的,就是分析數(shù)據(jù)關(guān)聯(lián)關(guān)系,主要是基于邏輯概念的,如(氣象預報、風險預警、趨勢分析、 機器人、watson等等),大部分人認為業(yè)務建模是一個非常復雜的事情,需要豐富的行業(yè)經(jīng)驗。這也正是大數(shù)據(jù)的應有之意。要從大量數(shù)據(jù)中挖掘有價值得信息,這與傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析有很大的不同,是深入數(shù)據(jù)的價值實體的,從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律。
華云數(shù)據(jù)集團的鄭軍博士認為機器學習對于大數(shù)據(jù)的發(fā)展具有特殊的意義,我深表贊同。按照杜總對大數(shù)據(jù)的解構(gòu)分析,數(shù)據(jù)挖掘才是大數(shù)據(jù)的本質(zhì),而要進行數(shù)據(jù)挖掘,機器學習方面技術(shù)的發(fā)展就必不可少了。畢竟要進行海量數(shù)據(jù)的復雜計算,靠人工來進行傳統(tǒng)的統(tǒng)計分析是不現(xiàn)實的。
對于此,我有一個公式:云計算+大數(shù)據(jù)+機器學習=智能互聯(lián)網(wǎng)。
其實云計算、大數(shù)據(jù)、機器學習這三個概念并不是孤立的,而是相輔相成,缺一不可的。要進行大量數(shù)據(jù)的處理,并且要將這種數(shù)據(jù)處理能力像水電一樣作為基礎設施提供給社會,那就必然要向全社會輸出計算能力。目前來看,云計算技術(shù)承擔了為社會提供計算能力的任務。另外,要將打通各個信息孤島,共享局部甚至是全社會的數(shù)據(jù),必然需要一個基于云架構(gòu)的信息系統(tǒng),云計算也承擔了打通社會數(shù)據(jù)的使命。
在擁有強大的計算能力之后,只有通過對海量數(shù)據(jù)的處理,通過數(shù)據(jù)挖掘發(fā)現(xiàn)其中的價值,才算是發(fā)揮了云計算的功用。所以云計算和大數(shù)據(jù)是一枚硬幣的兩面,相輔相成。云計算和大數(shù)據(jù)的緊密關(guān)系,已經(jīng)在業(yè)界得到普遍認知,但是要將這項事業(yè)推向深入,機器學習技術(shù)的發(fā)展就必不可少。因為人腦雖然具有很強的創(chuàng)造力,但是對大量信息的存儲和處理能力卻很缺乏,面對大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),單靠人工來進行統(tǒng)計分析,是沒效率甚至是不可能的。為計算系統(tǒng)賦予一定的智能,發(fā)揮其強大的存儲和計算能力,是大數(shù)據(jù)發(fā)展的必然之路。
上面從概念上談了大數(shù)據(jù)的理論,但如果要將大數(shù)據(jù)技術(shù)進行實際應用,應該怎么做,又會遇到什么困難呢?對于這個問題,華云數(shù)據(jù)集團的鄭軍博士給予了我一些啟發(fā)。鄭博士認為,我們的信息化進程可分為三個階段:IT化階段、數(shù)字化階段、數(shù)據(jù)化階段。目前阻礙我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的一個重要障礙就是信息化進程的落后。用鄭博士的話說,要進行大數(shù)據(jù)應用,首先必須得有大量數(shù)據(jù),而目前我國的很多企業(yè)尤其是小型企業(yè),還處在IT化階段,幾乎沒有數(shù)據(jù)積累。如果“小數(shù)據(jù)”都沒有,談何大數(shù)據(jù)。阻礙大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的另一障礙就是信息孤島的大量存在,要想大數(shù)據(jù)獲得發(fā)展,首先必須進行全社會數(shù)據(jù)的打通。
那么,我國的大數(shù)據(jù)應用情況到底怎么樣了,是處于什么階段呢?帶著這樣的問題,中國軟件網(wǎng)進行了市場調(diào)研,并對調(diào)研結(jié)果進行分析,得出了一些有意思的結(jié)論,在此也跟大家分享一下:
1. 大數(shù)據(jù)主要是從公司的日常運營中產(chǎn)生,其次是從外部引入。
2.產(chǎn)生和存儲的大數(shù)據(jù)類型主要有交易數(shù)據(jù)、生產(chǎn)數(shù)據(jù),其次為移動數(shù)據(jù)、機器和傳感器數(shù)據(jù),可以看到企業(yè)產(chǎn)生和存儲的主要數(shù)據(jù)都與其業(yè)務相關(guān)。產(chǎn)生的數(shù)據(jù)略多于存儲的數(shù)據(jù),說明還有部分產(chǎn)生的數(shù)據(jù)沒能獲得存儲。
3. 從數(shù)據(jù)處理的全生命周期來看,目前采用的大數(shù)據(jù)技術(shù)方案主要集中于數(shù)據(jù)采集、分布式存儲、分布式計算等靠前的環(huán)節(jié)。值得注意的是,在大數(shù)據(jù)分析處理環(huán)節(jié),較多的企業(yè)也采用了相應的技術(shù)方案。
4.目前已經(jīng)有和需求較多的大數(shù)據(jù)應用主要集中新業(yè)務拓展、提升客戶體驗、優(yōu)化客戶市場細分、精細化管理、市場和用戶行為預測等幾個方面。大數(shù)據(jù)應用的需求普遍高于已經(jīng)有的大數(shù)據(jù)應用,說明市場需求還沒有得到滿足。但在精細化生產(chǎn)方面,已經(jīng)有的大數(shù)據(jù)應用已經(jīng)超過需求。
5.在大數(shù)據(jù)應用過程中的難點方面,主要集中在數(shù)據(jù)安全、數(shù)據(jù)存儲壓力、數(shù)據(jù)類型多樣化、數(shù)據(jù)資源不豐富等幾個方面。
6. 在大數(shù)據(jù)應用部署方面,已經(jīng)在使用、計劃1年內(nèi)部署、計劃2年內(nèi)部署的企業(yè)相當,各占30%左右。
7. 企業(yè)在大數(shù)據(jù)應用方面,最希望獲得技術(shù)支持、其次是數(shù)據(jù)業(yè)務發(fā)展規(guī)劃支持,以及業(yè)務需求管理、產(chǎn)品/服務開發(fā)方面的支持。
以上是通過走訪行業(yè)專家和我們自己的一些研究,對大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的一些發(fā)現(xiàn)和看法。一方面為我國大數(shù)據(jù)領(lǐng)域的快速發(fā)展而興奮,另一方面也深感挑戰(zhàn)的艱巨。前路漫漫,我國大數(shù)據(jù)的發(fā)展還得靠大家的共同努力。但我始終堅信,道路是曲折的,前途是異常光明的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03