
本文由經(jīng)管之家小編整理自大數(shù)據(jù)工委會主任張華平在“2015中國數(shù)據(jù)分析師行業(yè)峰會”的演講,如需轉(zhuǎn)載請注明出處。
非常榮幸有這個機會跟大家來談一談非結(jié)構(gòu)化大數(shù)據(jù)分析,今天我們講到了很多數(shù)據(jù)分析。其實更多的層面,我聽到的除了袁博士講到的之外,我想跟大家分享一個概念?,F(xiàn)在的大數(shù)據(jù),可以說有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)大家比較清楚,比如說各種各樣的數(shù)據(jù)庫。這種數(shù)據(jù)庫,現(xiàn)實生活中絕大部分數(shù)據(jù)是沒有辦法處理的,現(xiàn)在我們非結(jié)構(gòu)化的數(shù)據(jù)規(guī)模是結(jié)構(gòu)化數(shù)據(jù)的100倍以上,所以它的體量非常大。
我今天的題目主要跟大家講社會化新媒體與非結(jié)構(gòu)化大數(shù)據(jù)分析。其實我們在座的企業(yè)和這個也很像,我們先看一看網(wǎng)絡(luò)發(fā)生了什么樣的變化,最早的天涯,包括現(xiàn)在的微博、QQ、微信?,F(xiàn)在我們發(fā)展到新媒體的時代,但是我們傳統(tǒng)行業(yè)目前的模式還是什么樣的狀態(tài)呢?大家可以看到這是我們經(jīng)??吹降膱鼍?,以后還會經(jīng)??吹?。
總體的感覺是,現(xiàn)在我們的網(wǎng)絡(luò)3.0時代或者是我們到了社會化新媒體時代。但是我們政府的管理以及現(xiàn)在企業(yè)很大程度上還在1.0版本,企業(yè)稍微好一點充其量是在2.0版本。最直接的結(jié)果是當(dāng)它們之間發(fā)生沖撞的時候會發(fā)生很多的矛盾和沖突,有很多匪夷所思的事情源于這兩個版本不對等所造成的。
今天有很多人質(zhì)疑大數(shù)據(jù),到底什么是大數(shù)據(jù)?說難聽一點,現(xiàn)在我聽到更多的只有數(shù)據(jù)大,數(shù)據(jù)大并不是大數(shù)據(jù)。我來個舉例子,比如說手機監(jiān)控,手機監(jiān)控的數(shù)據(jù)確實很大,它大到什么樣的地步呢?我在央視專門做過一個解說,所有的實驗我都做過,現(xiàn)在我們拿到的數(shù)據(jù)量還不算太大。
手機監(jiān)控的原理我不解釋了,我們來看一看,假如說每個人的手機,突然有一個人告訴我你出現(xiàn)在什么地方,這沒有什么了不得的,用數(shù)據(jù)可以檢索出來,僅此而已。如果這個歸結(jié)為大數(shù)據(jù),其實就差了很多。我們看這里面,這種表層的數(shù)據(jù)之后我們來做哪些事情。比如說我們可以推算出幾個活動規(guī)律,比如說起床你的作息規(guī)律,包括一個官員什么時候去過澳門賭博,這里面的數(shù)據(jù)都可以發(fā)現(xiàn)。
除此之外,我們還可以推算出他的職業(yè)和性別。因為我們知道對性別的判別,其實在經(jīng)濟學(xué)系里是非常簡單的問題。我們用貝葉斯,不需要那么多深入的分析的方法就可以非常高速的識別,我們的準確率大概95%以上,我們可以很清楚地知道女性和男性去的地方是不一樣的。
更加恐怖的是,在這個過程當(dāng)中我們可以分析出這個人整個的社交圈。比如說白天你更多是和你的合作伙伴在一起,如果是晚上,可能是和你的家里人在一起更多,我們看到大數(shù)據(jù)的洞察。我對大數(shù)據(jù)的理解,其實更多的是來源于我們用各種各樣的數(shù)據(jù)對人進行完整的洞察。
一、社會化新媒體
所以我今天主要會跟大家分享社會化新媒體非結(jié)構(gòu)化大數(shù)據(jù)、大數(shù)據(jù)搜索與挖掘關(guān)鍵技術(shù),新媒體分析實戰(zhàn)案例。社會化新媒體,大家可以看到現(xiàn)在的新舊媒體,包括《紐約時報》要抵押大樓,我們的彪哥要去收購大樓等等,我們可以看到這里面的變化,這原來是不可想象的事情。包括我們中央級的媒體也好不到哪里去,現(xiàn)在包括我們知道香港有很多傳統(tǒng)比較好的報紙都處于倒閉的狀態(tài)。是不是媒體不行了呢?其實恰恰相反,我們社會化的媒體,比如說《今日頭條》,我們不生產(chǎn)新聞,我們只是做新聞的搬運工。所以這里面我們能看到全球的搜索市場變化,我們能夠清楚地看到像Google它的搜索量,百度只是它的1/4。我們可以看到傳統(tǒng)媒體央視,我們看2012年的百度,現(xiàn)在我們可以看到百度占的市場份額非常大,包括它的新媒體。
為什么會造成這種現(xiàn)象,我們做了一些分析可以看到,媒體內(nèi)容的生產(chǎn),實際上它的生產(chǎn)過程耗費非常大。在利益分配的時候是這么一個情況,生產(chǎn)遠遠小于品牌渠道,渠道遠遠小于品牌,品牌遠遠小于社群。比如說寫書的不如賣書的,賣書的不如賣粉絲的?,F(xiàn)在我們有更好的像《小時代》,主流媒體對它批判很多,但是一點不影響它的票房。我們看一下主要的原因在于傳統(tǒng)媒體是內(nèi)容為王,新媒體更注重用戶。
我收集了一些傳統(tǒng)媒體各種比較匪夷所思的事情。比如說有害氣體,臺北人民23年不吃不喝才能買得起房。當(dāng)然還有一些更多的情況是這種的,比如說欒川風(fēng)傳潰壩的傳說,還有就是三峽大壩可抵御百年一遇的大洪水,現(xiàn)在我們已經(jīng)討論了很多年。
社會化媒體,剛才講到了什么是社會化媒體,我們簡單的來講,就是社會關(guān)系+傳媒。傳統(tǒng)媒體實際不太注重社會關(guān)系。我們可以看到,社會化媒體的發(fā)展歷程,從1.0的BBS,到后期的即時通訊,再到Web2.0的博客,視頻和社區(qū),以及到現(xiàn)在的微博、微信,按照一些特點我就不去分析。
我們從信息傳播的角度來看,傳播的要素這是我們總結(jié)的圖,比如主題,我想表達我的主題,時機,最后把這個信息傳播給受眾。最終傳播的渠道就是我們所謂的媒介。
我們來比較一下,傳統(tǒng)媒體和新媒體的差別在哪里?這里面我們要看到新媒體的內(nèi)容是非正式的,大家來看為什么當(dāng)年新浪極力推博客,博客始終火不了?微博和博客的差別在哪里呢?其實就是一個小的變化,說我們原來是要求像小學(xué)生寫日記一樣,寫長篇大論,現(xiàn)在140字就可以了,這就導(dǎo)致了內(nèi)容的非正式。還有這里是更多的多對多點,一個社交型的。尤其想強調(diào)的是現(xiàn)在在新媒體的環(huán)境下,它是一個對等交流,比如說我們CCTV和人民日報,它更多的是政治宣傳,這就相當(dāng)于它是一個在農(nóng)村的大喇叭廣播,我在這里廣播,我不需要大家反饋,大家聽著就好了。為什么現(xiàn)在一些政府,包括一些大的媒體在社交網(wǎng)絡(luò)上已經(jīng)成為了一個弱勢群體,反而一些草根大V做的非常好,原因就在于他們沒有把握他的場景變化。現(xiàn)在新媒體環(huán)境下更像是不站在臺上講,而是搬著椅子坐在你旁邊講。
我們再來看看內(nèi)容的,這里有一些技巧,這有一個“三情”的理論。尤其現(xiàn)在比較火的傳播,基本利用了人的基本需求,尤其是生理需求和安全需求。大家看一看現(xiàn)在很多的新聞網(wǎng)站,都在利用打擦邊球,會經(jīng)常放一個看上去,我剛剛還看了一條,讓我們來看看河南的情色大片,點進去一看是它們很好的美景。安全需求,就是像你不轉(zhuǎn)就不是中國人。還有就是在情緒方面的,具體在中國的表現(xiàn)就是仇官、仇富情緒。我經(jīng)常舉例子講,如果我們想要攻擊一個人,我們只需要說幾句話就可以,說這個人開著瑪莎拉蒂來上學(xué),他的背景很深,具體有多深我不知道。這有兩個就夠了,這個過程當(dāng)中,仇官仇富情緒一引發(fā),這過程沒有人追蹤他是誰,所有的情緒都過來了。
還有像代入感,像我們現(xiàn)在經(jīng)常傳播的時候經(jīng)常用的一些詞:“深深震撼”、“激發(fā)夢想”、“樂享生活”。還有像我去要飯,左邊說無家可歸,幫幫我吧。右邊說,如果你餓了,會怎么辦?這個在新媒體上大家會經(jīng)常用這樣的技巧,就是讓你感覺你在饑餓。還有我們經(jīng)常看到手機發(fā)布會,說我的手機有什么樣的技術(shù)參數(shù),有64G閃存,其實這時候?qū)?4G都沒有什么概念。還有其他的講述的方式,我們可以看到好好學(xué)習(xí)的一些內(nèi)容。再比如說漫畫,這個實際在內(nèi)容的傳播方式也在發(fā)生變化。還有角色的扮演,還有很多話題,它的主題創(chuàng)意,我們常見的是像這種政府發(fā)的通知,說幾層幾層的緊急通知。實際上在我黨歷史上,傳播最厲害的,就是打土豪分田地,六個字,一般農(nóng)民都看懂了。這么多年來我們看到表叔,微笑局長,房姐,這就起到了很好的借用。
二、非結(jié)構(gòu)化大數(shù)據(jù)
我們切入到非結(jié)構(gòu)化大數(shù)據(jù)。我在說我看法之前給大家解釋一下我所理解的大數(shù)據(jù)是什么,我所理解的是,大家能看到十幾張圖片實際上是一個普通的信息,我不用說要多大的數(shù)據(jù),我十幾張就Ok了。這樣疊加在一起就產(chǎn)生一個1+1>2的效果,在這個過程中我們可以獲取知識。實際上大數(shù)據(jù)的過程是信息疊加,產(chǎn)生知識的過程。
大數(shù)據(jù)給我們帶來的是決策方式的變化。我們在決策的時候四個要素,主體、依據(jù)、機制、效率。像《富春山居圖》,這很爛的片,當(dāng)時它的票房很好,原因也很簡單,它是一個審丑效應(yīng),大家都想看它有多爛,所以最后還是拿了那么高的票房。但是這個片子就沒這么幸運了,《失孤》,它非得讓大家來看,說劉德華扮演農(nóng)民工是什么樣子。大家看到,最終的票房也差,口碑也很差。原因很簡單,它的決策流程是傳統(tǒng)的小數(shù)據(jù)模式,就是因為我作為老板來說,我就喜歡劉德華,所以我非得選劉德華不可。當(dāng)然也有好的例子,像唱小蘋果的老男孩,這個實際上應(yīng)用在業(yè)務(wù)庫有一個三分鐘的視頻,有幾百萬人的訪問,把這些人數(shù)據(jù)拿過來分析,這個是根據(jù)消費者,洞察他們的需求作出的決策。
有很多特征,我把它中國化的理解,實際上就是多快好省。大數(shù)據(jù)不是說投大量資金建立一個大數(shù)據(jù)中心,實際上現(xiàn)在大數(shù)據(jù)的技術(shù)和結(jié)構(gòu)是能夠以很小的性價比獲得更好的價值。所有的大數(shù)據(jù)實際上是由無數(shù)的小數(shù)據(jù)組合而成,像袁博士講到的大數(shù)據(jù)和小數(shù)據(jù)的差別。有時候大數(shù)據(jù)的精髓在小數(shù)據(jù)上。所以在認識的方式上,我們第一個,知著見微。知著就是宏觀分析。最后一點,就是曉意,如果對語義不了解的話,有時候也理解不到。我們終極的目標是讓計算機來自動理解人類的語言。最后,我們對客觀世界的洞察,是我們通過人類自然語言來完成的。
我最終的結(jié)論,大數(shù)據(jù)更大意義上是非結(jié)構(gòu)化內(nèi)容的理解,因為結(jié)構(gòu)化數(shù)據(jù)我們在大數(shù)據(jù)之前,我們通過數(shù)據(jù)挖掘各種各樣工具,基本上來說沒有新的問題和挑戰(zhàn)了。我們最終的目標實際上就是我們希望從大數(shù)據(jù)里獲得大的洞察力,這就實現(xiàn)我們?nèi)チ私庹l,什么時間,我們在做什么樣的事情。
三、大數(shù)據(jù)搜索與挖掘關(guān)鍵技術(shù)
這里的關(guān)鍵技術(shù),我給大家看一些例子。我們實驗室的在線演示,我們來訪問一下新浪新聞,我們就拿第一篇的新聞來說,我跟大家稍微解說一下。首先我們整個的分析平臺,在這個地方是可以輸入你任何網(wǎng)頁,如果你不輸入的話,我們系統(tǒng)可能是瀏覽器的問題會自動抓取一篇新浪網(wǎng)最新的文章,這是剛才的一篇文章,給大家展示一下。第一個,我們會把剛才的文章進行切分,比如說昨日,因為我們知道在中文里,我們是不做空格,之后再做色線標注。像這里的橘色表示的是時間,當(dāng)講到國務(wù)院李克強,李克強是人的名字,所以這里我們會做自動的識別,大家會看到,非結(jié)構(gòu)化語義理解,完全的會直接的識別所有的這些工作。
另外,大家可以看到用戶自定義詞,這個過程當(dāng)中你可以把自己專業(yè)的詞匯定義進去。比如說華為,每一部新的手機都在用我們的工具,它定義了衣食住行各種各樣的專業(yè)術(shù)語。比如跟美食相關(guān)的大概有幾萬個詞,所以這里可以看到我們的分析。
前面都是自動生成的,大家可以訪問我們的網(wǎng)址。這是一個詞關(guān)聯(lián)。這里面大家看到,比如,卡爾這個詞我們會關(guān)聯(lián)到卡爾馬克思等等這樣的詞,對于這樣的詞我們會進行十幾次的關(guān)聯(lián)訓(xùn)練,所以每個詞我們都會看到。
我們來看我們已經(jīng)分析好的一個效果,這里展示的是這篇文章當(dāng)中出現(xiàn)了哪些人,哪些地方和哪些機構(gòu),以及有哪些主題,這個會自動的計算出來。對詞的理解上面,我們很多情況下是需要了解名詞、動詞、形容詞的變化,還有一些情感分析,我們會分析出這篇文章是正面的還是負面的情感,同時可以輸入一個產(chǎn)品,能夠把這個文章對這個產(chǎn)品的正負面做一個計算。還有自動的打拼音,還有我們一篇文章可以用250個字或者300個字,把你的意思做一個自動的摘要。
這里我介紹一下我們做的一套大數(shù)據(jù)搜索引擎。像語法,我就一些負面消息,這個負面消息要在12次以上等等,這里可以看到一些效果。像搜查土豆,會出馬鈴薯,并且對搜索進行分類。一旦這里的數(shù)據(jù)發(fā)生變化,我們10秒鐘內(nèi)就會體現(xiàn)出來。還有對維吾爾語的搜索。我們還提供了二次開發(fā)包,現(xiàn)在在Linux等等上面都可以使用我們的系統(tǒng)。還有像對十八大理解和科學(xué)發(fā)展觀等等都是自動算出來的。以及自動的發(fā)現(xiàn)甲流的問題,還有用我們的工具做用戶的畫像,我們還會分析人的情緒變化,大家看到藍色部分的人情緒波動非常厲害,還有我們對價值觀的分析,我們看到比如說我們剛剛宣判的郭美美,我們計算的結(jié)果,就是她的安全項非常低,所以她的一些行為大家容易理解,極度自卑會導(dǎo)致她用炫耀的方式來彌補。
四、新媒體分析實戰(zhàn)案例
后面的案例部分,我們把馬英九兩年來兩次的就職演說做一個對比。我們大家看一看,兩岸的問題變得越來越重要。比如說把汪峰所有的歌拿過來,最后可以寫一個汪峰的歌。比如說國家氣象局,我們把過去五年以來所有的天氣預(yù)報做了一個分析。在社交網(wǎng)絡(luò)上專門抓失獨老人這個詞,主要的技術(shù)方案實際上是利用內(nèi)容和社會關(guān)系。大家可以看到左邊所有的變化是我們會根據(jù)已有的關(guān)系來發(fā)現(xiàn)親人。
簡單來講,我們建一個候選人名單,如果候選人名單里面有三個這個不是偶然現(xiàn)象?,F(xiàn)在我們在社交網(wǎng)上有一萬多個失獨老人。這是新媒體的編輯器,這是地域劃分,包括在國內(nèi),以及在美國和國外分布的情況。這張圖大家可以看清楚,這是草根的觀點,以及所有大V的觀點和媒體的觀點。中國地圖表示的是中國國內(nèi)和體制內(nèi)的媒體對這件事情的評價,這是國際媒體。大家基本上可以看到國際媒體和國內(nèi)媒體關(guān)注點完全不一樣。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03