99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)工委會主任張華平:從非結(jié)構(gòu)化數(shù)據(jù)中獲取洞察力
大數(shù)據(jù)工委會主任張華平:從非結(jié)構(gòu)化數(shù)據(jù)中獲取洞察力
2015-09-21
收藏

本文由經(jīng)管之家小編整理自大數(shù)據(jù)工委會主任張華平在“2015中國數(shù)據(jù)分析師行業(yè)峰會”的演講,如需轉(zhuǎn)載請注明出處。


非常榮幸有這個機會跟大家來談一談非結(jié)構(gòu)化大數(shù)據(jù)分析,今天我們講到了很多數(shù)據(jù)分析。其實更多的層面,我聽到的除了袁博士講到的之外,我想跟大家分享一個概念?,F(xiàn)在的大數(shù)據(jù),可以說有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)大家比較清楚,比如說各種各樣的數(shù)據(jù)庫。這種數(shù)據(jù)庫,現(xiàn)實生活中絕大部分數(shù)據(jù)是沒有辦法處理的,現(xiàn)在我們非結(jié)構(gòu)化的數(shù)據(jù)規(guī)模是結(jié)構(gòu)化數(shù)據(jù)的100倍以上,所以它的體量非常大。



我今天的題目主要跟大家講社會化新媒體與非結(jié)構(gòu)化大數(shù)據(jù)分析。其實我們在座的企業(yè)和這個也很像,我們先看一看網(wǎng)絡(luò)發(fā)生了什么樣的變化,最早的天涯,包括現(xiàn)在的微博、QQ、微信?,F(xiàn)在我們發(fā)展到新媒體的時代,但是我們傳統(tǒng)行業(yè)目前的模式還是什么樣的狀態(tài)呢?大家可以看到這是我們經(jīng)??吹降膱鼍?,以后還會經(jīng)??吹?。


總體的感覺是,現(xiàn)在我們的網(wǎng)絡(luò)3.0時代或者是我們到了社會化新媒體時代。但是我們政府的管理以及現(xiàn)在企業(yè)很大程度上還在1.0版本,企業(yè)稍微好一點充其量是在2.0版本。最直接的結(jié)果是當(dāng)它們之間發(fā)生沖撞的時候會發(fā)生很多的矛盾和沖突,有很多匪夷所思的事情源于這兩個版本不對等所造成的。


今天有很多人質(zhì)疑大數(shù)據(jù),到底什么是大數(shù)據(jù)?說難聽一點,現(xiàn)在我聽到更多的只有數(shù)據(jù)大,數(shù)據(jù)大并不是大數(shù)據(jù)。我來個舉例子,比如說手機監(jiān)控,手機監(jiān)控的數(shù)據(jù)確實很大,它大到什么樣的地步呢?我在央視專門做過一個解說,所有的實驗我都做過,現(xiàn)在我們拿到的數(shù)據(jù)量還不算太大。


手機監(jiān)控的原理我不解釋了,我們來看一看,假如說每個人的手機,突然有一個人告訴我你出現(xiàn)在什么地方,這沒有什么了不得的,用數(shù)據(jù)可以檢索出來,僅此而已。如果這個歸結(jié)為大數(shù)據(jù),其實就差了很多。我們看這里面,這種表層的數(shù)據(jù)之后我們來做哪些事情。比如說我們可以推算出幾個活動規(guī)律,比如說起床你的作息規(guī)律,包括一個官員什么時候去過澳門賭博,這里面的數(shù)據(jù)都可以發(fā)現(xiàn)。


除此之外,我們還可以推算出他的職業(yè)和性別。因為我們知道對性別的判別,其實在經(jīng)濟學(xué)系里是非常簡單的問題。我們用貝葉斯,不需要那么多深入的分析的方法就可以非常高速的識別,我們的準確率大概95%以上,我們可以很清楚地知道女性和男性去的地方是不一樣的。


更加恐怖的是,在這個過程當(dāng)中我們可以分析出這個人整個的社交圈。比如說白天你更多是和你的合作伙伴在一起,如果是晚上,可能是和你的家里人在一起更多,我們看到大數(shù)據(jù)的洞察。我對大數(shù)據(jù)的理解,其實更多的是來源于我們用各種各樣的數(shù)據(jù)對人進行完整的洞察。


一、社會化新媒體



所以我今天主要會跟大家分享社會化新媒體非結(jié)構(gòu)化大數(shù)據(jù)、大數(shù)據(jù)搜索與挖掘關(guān)鍵技術(shù),新媒體分析實戰(zhàn)案例。社會化新媒體,大家可以看到現(xiàn)在的新舊媒體,包括《紐約時報》要抵押大樓,我們的彪哥要去收購大樓等等,我們可以看到這里面的變化,這原來是不可想象的事情。包括我們中央級的媒體也好不到哪里去,現(xiàn)在包括我們知道香港有很多傳統(tǒng)比較好的報紙都處于倒閉的狀態(tài)。是不是媒體不行了呢?其實恰恰相反,我們社會化的媒體,比如說《今日頭條》,我們不生產(chǎn)新聞,我們只是做新聞的搬運工。所以這里面我們能看到全球的搜索市場變化,我們能夠清楚地看到像Google它的搜索量,百度只是它的1/4。我們可以看到傳統(tǒng)媒體央視,我們看2012年的百度,現(xiàn)在我們可以看到百度占的市場份額非常大,包括它的新媒體。


為什么會造成這種現(xiàn)象,我們做了一些分析可以看到,媒體內(nèi)容的生產(chǎn),實際上它的生產(chǎn)過程耗費非常大。在利益分配的時候是這么一個情況,生產(chǎn)遠遠小于品牌渠道,渠道遠遠小于品牌,品牌遠遠小于社群。比如說寫書的不如賣書的,賣書的不如賣粉絲的?,F(xiàn)在我們有更好的像《小時代》,主流媒體對它批判很多,但是一點不影響它的票房。我們看一下主要的原因在于傳統(tǒng)媒體是內(nèi)容為王,新媒體更注重用戶。


我收集了一些傳統(tǒng)媒體各種比較匪夷所思的事情。比如說有害氣體,臺北人民23年不吃不喝才能買得起房。當(dāng)然還有一些更多的情況是這種的,比如說欒川風(fēng)傳潰壩的傳說,還有就是三峽大壩可抵御百年一遇的大洪水,現(xiàn)在我們已經(jīng)討論了很多年。


社會化媒體,剛才講到了什么是社會化媒體,我們簡單的來講,就是社會關(guān)系+傳媒。傳統(tǒng)媒體實際不太注重社會關(guān)系。我們可以看到,社會化媒體的發(fā)展歷程,從1.0的BBS,到后期的即時通訊,再到Web2.0的博客,視頻和社區(qū),以及到現(xiàn)在的微博、微信,按照一些特點我就不去分析。



我們從信息傳播的角度來看,傳播的要素這是我們總結(jié)的圖,比如主題,我想表達我的主題,時機,最后把這個信息傳播給受眾。最終傳播的渠道就是我們所謂的媒介。



我們來比較一下,傳統(tǒng)媒體和新媒體的差別在哪里?這里面我們要看到新媒體的內(nèi)容是非正式的,大家來看為什么當(dāng)年新浪極力推博客,博客始終火不了?微博和博客的差別在哪里呢?其實就是一個小的變化,說我們原來是要求像小學(xué)生寫日記一樣,寫長篇大論,現(xiàn)在140字就可以了,這就導(dǎo)致了內(nèi)容的非正式。還有這里是更多的多對多點,一個社交型的。尤其想強調(diào)的是現(xiàn)在在新媒體的環(huán)境下,它是一個對等交流,比如說我們CCTV和人民日報,它更多的是政治宣傳,這就相當(dāng)于它是一個在農(nóng)村的大喇叭廣播,我在這里廣播,我不需要大家反饋,大家聽著就好了。為什么現(xiàn)在一些政府,包括一些大的媒體在社交網(wǎng)絡(luò)上已經(jīng)成為了一個弱勢群體,反而一些草根大V做的非常好,原因就在于他們沒有把握他的場景變化。現(xiàn)在新媒體環(huán)境下更像是不站在臺上講,而是搬著椅子坐在你旁邊講。



我們再來看看內(nèi)容的,這里有一些技巧,這有一個“三情”的理論。尤其現(xiàn)在比較火的傳播,基本利用了人的基本需求,尤其是生理需求和安全需求。大家看一看現(xiàn)在很多的新聞網(wǎng)站,都在利用打擦邊球,會經(jīng)常放一個看上去,我剛剛還看了一條,讓我們來看看河南的情色大片,點進去一看是它們很好的美景。安全需求,就是像你不轉(zhuǎn)就不是中國人。還有就是在情緒方面的,具體在中國的表現(xiàn)就是仇官、仇富情緒。我經(jīng)常舉例子講,如果我們想要攻擊一個人,我們只需要說幾句話就可以,說這個人開著瑪莎拉蒂來上學(xué),他的背景很深,具體有多深我不知道。這有兩個就夠了,這個過程當(dāng)中,仇官仇富情緒一引發(fā),這過程沒有人追蹤他是誰,所有的情緒都過來了。


還有像代入感,像我們現(xiàn)在經(jīng)常傳播的時候經(jīng)常用的一些詞:“深深震撼”、“激發(fā)夢想”、“樂享生活”。還有像我去要飯,左邊說無家可歸,幫幫我吧。右邊說,如果你餓了,會怎么辦?這個在新媒體上大家會經(jīng)常用這樣的技巧,就是讓你感覺你在饑餓。還有我們經(jīng)常看到手機發(fā)布會,說我的手機有什么樣的技術(shù)參數(shù),有64G閃存,其實這時候?qū)?4G都沒有什么概念。還有其他的講述的方式,我們可以看到好好學(xué)習(xí)的一些內(nèi)容。再比如說漫畫,這個實際在內(nèi)容的傳播方式也在發(fā)生變化。還有角色的扮演,還有很多話題,它的主題創(chuàng)意,我們常見的是像這種政府發(fā)的通知,說幾層幾層的緊急通知。實際上在我黨歷史上,傳播最厲害的,就是打土豪分田地,六個字,一般農(nóng)民都看懂了。這么多年來我們看到表叔,微笑局長,房姐,這就起到了很好的借用。


二、非結(jié)構(gòu)化大數(shù)據(jù)


我們切入到非結(jié)構(gòu)化大數(shù)據(jù)。我在說我看法之前給大家解釋一下我所理解的大數(shù)據(jù)是什么,我所理解的是,大家能看到十幾張圖片實際上是一個普通的信息,我不用說要多大的數(shù)據(jù),我十幾張就Ok了。這樣疊加在一起就產(chǎn)生一個1+1>2的效果,在這個過程中我們可以獲取知識。實際上大數(shù)據(jù)的過程是信息疊加,產(chǎn)生知識的過程。


大數(shù)據(jù)給我們帶來的是決策方式的變化。我們在決策的時候四個要素,主體、依據(jù)、機制、效率。像《富春山居圖》,這很爛的片,當(dāng)時它的票房很好,原因也很簡單,它是一個審丑效應(yīng),大家都想看它有多爛,所以最后還是拿了那么高的票房。但是這個片子就沒這么幸運了,《失孤》,它非得讓大家來看,說劉德華扮演農(nóng)民工是什么樣子。大家看到,最終的票房也差,口碑也很差。原因很簡單,它的決策流程是傳統(tǒng)的小數(shù)據(jù)模式,就是因為我作為老板來說,我就喜歡劉德華,所以我非得選劉德華不可。當(dāng)然也有好的例子,像唱小蘋果的老男孩,這個實際上應(yīng)用在業(yè)務(wù)庫有一個三分鐘的視頻,有幾百萬人的訪問,把這些人數(shù)據(jù)拿過來分析,這個是根據(jù)消費者,洞察他們的需求作出的決策。


有很多特征,我把它中國化的理解,實際上就是多快好省。大數(shù)據(jù)不是說投大量資金建立一個大數(shù)據(jù)中心,實際上現(xiàn)在大數(shù)據(jù)的技術(shù)和結(jié)構(gòu)是能夠以很小的性價比獲得更好的價值。所有的大數(shù)據(jù)實際上是由無數(shù)的小數(shù)據(jù)組合而成,像袁博士講到的大數(shù)據(jù)和小數(shù)據(jù)的差別。有時候大數(shù)據(jù)的精髓在小數(shù)據(jù)上。所以在認識的方式上,我們第一個,知著見微。知著就是宏觀分析。最后一點,就是曉意,如果對語義不了解的話,有時候也理解不到。我們終極的目標是讓計算機來自動理解人類的語言。最后,我們對客觀世界的洞察,是我們通過人類自然語言來完成的。


我最終的結(jié)論,大數(shù)據(jù)更大意義上是非結(jié)構(gòu)化內(nèi)容的理解,因為結(jié)構(gòu)化數(shù)據(jù)我們在大數(shù)據(jù)之前,我們通過數(shù)據(jù)挖掘各種各樣工具,基本上來說沒有新的問題和挑戰(zhàn)了。我們最終的目標實際上就是我們希望從大數(shù)據(jù)里獲得大的洞察力,這就實現(xiàn)我們?nèi)チ私庹l,什么時間,我們在做什么樣的事情。


三、大數(shù)據(jù)搜索與挖掘關(guān)鍵技術(shù)



這里的關(guān)鍵技術(shù),我給大家看一些例子。我們實驗室的在線演示,我們來訪問一下新浪新聞,我們就拿第一篇的新聞來說,我跟大家稍微解說一下。首先我們整個的分析平臺,在這個地方是可以輸入你任何網(wǎng)頁,如果你不輸入的話,我們系統(tǒng)可能是瀏覽器的問題會自動抓取一篇新浪網(wǎng)最新的文章,這是剛才的一篇文章,給大家展示一下。第一個,我們會把剛才的文章進行切分,比如說昨日,因為我們知道在中文里,我們是不做空格,之后再做色線標注。像這里的橘色表示的是時間,當(dāng)講到國務(wù)院李克強,李克強是人的名字,所以這里我們會做自動的識別,大家會看到,非結(jié)構(gòu)化語義理解,完全的會直接的識別所有的這些工作。


另外,大家可以看到用戶自定義詞,這個過程當(dāng)中你可以把自己專業(yè)的詞匯定義進去。比如說華為,每一部新的手機都在用我們的工具,它定義了衣食住行各種各樣的專業(yè)術(shù)語。比如跟美食相關(guān)的大概有幾萬個詞,所以這里可以看到我們的分析。


前面都是自動生成的,大家可以訪問我們的網(wǎng)址。這是一個詞關(guān)聯(lián)。這里面大家看到,比如,卡爾這個詞我們會關(guān)聯(lián)到卡爾馬克思等等這樣的詞,對于這樣的詞我們會進行十幾次的關(guān)聯(lián)訓(xùn)練,所以每個詞我們都會看到。


我們來看我們已經(jīng)分析好的一個效果,這里展示的是這篇文章當(dāng)中出現(xiàn)了哪些人,哪些地方和哪些機構(gòu),以及有哪些主題,這個會自動的計算出來。對詞的理解上面,我們很多情況下是需要了解名詞、動詞、形容詞的變化,還有一些情感分析,我們會分析出這篇文章是正面的還是負面的情感,同時可以輸入一個產(chǎn)品,能夠把這個文章對這個產(chǎn)品的正負面做一個計算。還有自動的打拼音,還有我們一篇文章可以用250個字或者300個字,把你的意思做一個自動的摘要。



這里我介紹一下我們做的一套大數(shù)據(jù)搜索引擎。像語法,我就一些負面消息,這個負面消息要在12次以上等等,這里可以看到一些效果。像搜查土豆,會出馬鈴薯,并且對搜索進行分類。一旦這里的數(shù)據(jù)發(fā)生變化,我們10秒鐘內(nèi)就會體現(xiàn)出來。還有對維吾爾語的搜索。我們還提供了二次開發(fā)包,現(xiàn)在在Linux等等上面都可以使用我們的系統(tǒng)。還有像對十八大理解和科學(xué)發(fā)展觀等等都是自動算出來的。以及自動的發(fā)現(xiàn)甲流的問題,還有用我們的工具做用戶的畫像,我們還會分析人的情緒變化,大家看到藍色部分的人情緒波動非常厲害,還有我們對價值觀的分析,我們看到比如說我們剛剛宣判的郭美美,我們計算的結(jié)果,就是她的安全項非常低,所以她的一些行為大家容易理解,極度自卑會導(dǎo)致她用炫耀的方式來彌補。


四、新媒體分析實戰(zhàn)案例


后面的案例部分,我們把馬英九兩年來兩次的就職演說做一個對比。我們大家看一看,兩岸的問題變得越來越重要。比如說把汪峰所有的歌拿過來,最后可以寫一個汪峰的歌。比如說國家氣象局,我們把過去五年以來所有的天氣預(yù)報做了一個分析。在社交網(wǎng)絡(luò)上專門抓失獨老人這個詞,主要的技術(shù)方案實際上是利用內(nèi)容和社會關(guān)系。大家可以看到左邊所有的變化是我們會根據(jù)已有的關(guān)系來發(fā)現(xiàn)親人。



簡單來講,我們建一個候選人名單,如果候選人名單里面有三個這個不是偶然現(xiàn)象?,F(xiàn)在我們在社交網(wǎng)上有一萬多個失獨老人。這是新媒體的編輯器,這是地域劃分,包括在國內(nèi),以及在美國和國外分布的情況。這張圖大家可以看清楚,這是草根的觀點,以及所有大V的觀點和媒體的觀點。中國地圖表示的是中國國內(nèi)和體制內(nèi)的媒體對這件事情的評價,這是國際媒體。大家基本上可以看到國際媒體和國內(nèi)媒體關(guān)注點完全不一樣。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }