
本文由有CDA數(shù)據(jù)分析師小編整理自中國傳媒大學(xué)電視與新聞學(xué)院教授沈浩在“2015年中國數(shù)據(jù)分析師行業(yè)峰會”的演講,如需轉(zhuǎn)載請注明出處
今天我演講的題目是“發(fā)現(xiàn)數(shù)據(jù)可視化之美”,前一段時間我寫過一本書,里面有這樣一段話,我說這是一個讓我們興奮的時代,數(shù)據(jù)科學(xué)讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復(fù)雜行為模式,以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們可用的知識?!洞髷?shù)據(jù)時代》這本書,核心觀點是說大數(shù)據(jù)是工作、生活和思維方式的改變。
這是一個非常有名的一張圖片,這張圖片后面是全球的世界地圖。當(dāng)有人發(fā)一個推特的時候它就有一個點,當(dāng)越來越多的點出來以后,我們立刻就感知了,好像中國這塊一片黑,說明我們中國人不怎么用推特。
其實人是一種視覺動物,去感知世界。臉書(Facebook)的一個實習(xí)生,用R語言制作了臉書如何掌控地球這樣一個程序,我們一眼就可以看出來人們在社交網(wǎng)絡(luò)上產(chǎn)生的各種溝通效果。我們所面對的大數(shù)據(jù)時代是一種社會科學(xué),是跟人有關(guān)的事情,在我們這兒有一句話,除了上帝所有人都應(yīng)該用數(shù)據(jù)說話。
怎么用數(shù)據(jù)說話?可視化是很重要的用數(shù)據(jù)說話的方式,這種說話最典型的就是你看得見才能做得到,才能做得好。數(shù)據(jù)可視化到底是什么?我們到底應(yīng)該站在什么位置?如果我們從狹義的角度講,數(shù)據(jù)可視化其實還有信息可視化,還有交互可視化。對于數(shù)據(jù)、統(tǒng)計包括數(shù)據(jù)分析,我們一直強調(diào)應(yīng)該有計算機科學(xué),也要有有新媒體,特別是藝術(shù)設(shè)計這樣的一種思維方式,這方面我特別贊成吳(喜之)老師說的泛,泛編程能力。
我是數(shù)據(jù)分析師,但是當(dāng)我面對很多文科領(lǐng)域的人他看不懂,老讓我去開會,但是我又沒時間,我是不是做個什么東西,讓我不去教你就能看得懂呢?所以我經(jīng)常說一句話,形式要大于內(nèi)容。后面這句話是有的,就是在有內(nèi)容的情況下,形式大于內(nèi)容。
那怎么讓形式大于內(nèi)容呢?很多領(lǐng)域都有可視化,比如數(shù)據(jù)可視化、地理可視化、城市可視化,現(xiàn)在還有新聞可視化,什么都可以可視化??梢暬且寗e人看得懂。所以我建議把企業(yè)的數(shù)據(jù)轉(zhuǎn)化成的儀表盤,大家都會開車,但是看的是儀表盤,背后是一張報表,如果不給你儀表盤,給你報表你會開車嗎,夠嗆。所以在這里如何給管理者、決策者最好的。
早期這個報表是動的,這個報表如果這么看,我衣服怎么樣,我收入就是怎么樣。
所以那個時候我做了很多經(jīng)典的所謂的移動模型,說如果質(zhì)量價格比怎么樣,你發(fā)現(xiàn)它動了。這個東西對別人的感覺來講是不一樣的。特別是對使用者,所以這時候它不光看到了模型,還可以回答問題,包括我們做收視率分析的時候,我們可以用儀表盤的方式呈現(xiàn)數(shù)據(jù)的變化,特別是用這樣的一些模式去感知不同數(shù)據(jù)的變化。
實際上這是曾經(jīng)機場上搞不清楚航班延誤怎么樣,其實都有,但是它沒法兒分散,所以做了一個所謂的動態(tài)顯示屏。這個顯示屏我們可以看到不同的汽車,包括預(yù)警,這些如果你歸納起來,它是早期的可視化,或者叫前端展示。我們叫商業(yè)智能。
你會發(fā)現(xiàn),我們過去的分析已經(jīng)變成了一種思維模式,是一種心理的模式,這種模式是什么呢?你發(fā)現(xiàn)到今天對可視化不是在PPT上演示了,甚至PPT也不能演示了像我們看到很多詞語,當(dāng)然這個詞語需要我們從網(wǎng)上抓取作出完全個性化的詞語。甚至我們做一些主題的歸類,我們會發(fā)現(xiàn)這東西好像以前都沒有,當(dāng)然現(xiàn)在它們也在做所謂的文本挖掘,對其他領(lǐng)域,特別是對關(guān)系領(lǐng)域的挖掘。
做數(shù)據(jù)分析的人最常知道的一個工具是什么呢?一個叫漢斯的人,他做了這樣一個產(chǎn)品,他就是不同的散點的圖,只不過在這樣的散點圖中以非常明確直觀的方式讓我們感知到了數(shù)據(jù)的變化,讓我們看到了它的痕跡,數(shù)據(jù)是動態(tài)的。
這個動態(tài)需要我們?nèi)ふ視r間序列,包括我們看到時間序列,重大數(shù)據(jù)集的變化,這個變化通過傳統(tǒng)的散點圖也需要不斷感知。這個散點圖到底在哪兒,我們需要標記什么。這個時候我們需要一個更好的方式,所以有人就看到,在今天的可視化,特別是在在線層面,需要解決一個在線的動態(tài)可視化,而這個可視化可以選擇。
其實隨著技術(shù)的發(fā)展我們越來越看到,這種在線的、動態(tài)的,以及直接在線制作的,甚至制作完圖,我們再去看代碼。大家知道Excel先用數(shù)據(jù)再去做圖,現(xiàn)在有一種新的趨勢,就是先做出圖來,然后再看我的數(shù)據(jù)哪兒有問題。所以是先看圖在看數(shù)據(jù)的趨勢。所以我們需要知道這些的數(shù)據(jù)到底怎么樣,它的位置,標簽等等的情況,當(dāng)然我們也需要實時的。
我需要說在李克強答中外記者問的時候,我想做一個實時的展示輿情,在微博上抓來數(shù)據(jù),把這些數(shù)據(jù)分詞,讓這些分詞抓到主旨模型。同時這個輿情就是你看到的實時輿情,這是推特的輿情,不光能看到,還能感知到數(shù)據(jù)實時的波動。所以我們經(jīng)常說,到了今天,特別是大數(shù)據(jù)的時代,我們不再追求說它的統(tǒng)計什么樣,二是更關(guān)注我看得見,我感知到這個社會脈絡(luò)。
比方說像大型網(wǎng)絡(luò)的變化,這些網(wǎng)絡(luò)里都有誰,哪個是演員,比如說你點他,你會發(fā)現(xiàn)這個演員就出來了,這個演員跟誰有過交情,它會在這里顯示這些東西。這是基于網(wǎng)絡(luò)的查詢而可視化。國外有一個庫,你可以直接在里面說你想搜一個名人,它立刻告訴你這些名人之間的關(guān)系。
包括這種類似于大屏顯示,我們需要實時在線微博上各種賬號的關(guān)聯(lián),需要這種關(guān)聯(lián)的過程,以及基于這種關(guān)聯(lián)所看到一種統(tǒng)計的現(xiàn)象。我們需要制作各種報表,這個報表不是單一的報表,而是具有關(guān)聯(lián)性的,我們會把不同的數(shù)據(jù)源,不同的報表形態(tài)聚合到同一個屏上,通過我們不斷的關(guān)聯(lián),即使同源、異源都可以報數(shù)據(jù)關(guān)聯(lián)起來,形成各種各樣的表達形式。
包括我們看到在這個形式中各種數(shù)據(jù)的變化,甚至可以去選擇,說如果怎么樣,我們可以把這個數(shù)據(jù)變化,可以雙擊,甚至可以放大數(shù)據(jù)的點,用放大鏡的方式去感知。甚至對于不同的數(shù)據(jù)情況來看,其實我們可以做各種各樣的篩選,比如說可以隱藏掉它。其實在這里面我們也可以看到各種地理信息的展現(xiàn),包括地圖這種感知方式的呈現(xiàn)。這種呈現(xiàn)的方式是什么?就像我們可以畫出整個暴風(fēng)雪或者風(fēng)暴的走勢,然后還感知這個風(fēng)暴走勢的圖。甚至我們可以去篩選不同的風(fēng)暴現(xiàn)象,我是不是就關(guān)注于這條線的時候可以高量這個東西,實際上我們看到交互式的圖形,可以讓我們更好的洞察事物。
這種洞察我一直說是要inside出來,就像你看到這個地球,這個地球上我們可以洞察什么?其實你如果喜歡紐約的話,可以敲一個紐約,紐約9·11那兩個底座,甚至車在哪兒開都可以看到。所以很重要的是我們能不能夠感知到這個數(shù)據(jù)的變化。我把大數(shù)據(jù)時代分成這樣四個領(lǐng)域。第一個叫數(shù)據(jù)科學(xué),但是如果只分數(shù)據(jù)科學(xué)的話可能也包括文本挖掘、語意挖掘等等,除此之外還有個關(guān)系網(wǎng)絡(luò)的挖掘,我們還涉及到空間和地理分析的事情。
如果做一個可視化的東西,就需要這樣的網(wǎng)絡(luò)的關(guān)系,我們需要追蹤整個傳播鏈的每個細節(jié),如果有人發(fā)了一條微博,有十萬條轉(zhuǎn)發(fā)的時候,立刻可以抓下來,看誰在這里起什么樣的作用,他的角色,他的位置,如何決定他傳播的意義。
右邊這個圖是我做的,是一條杜蕾斯的傳播,我把它抓下來以后,我們立刻就可以看到這樣的傳播,他們給我這張圖起了個名字叫“上帝的指紋”。
其實這個東西非常重要,因為它顯示了信息傳播的地域分布,顯示了自組織狀態(tài),顯示了大V在這里起的作用,顯示了信息經(jīng)由橋梁傳播所帶來的強關(guān)系帶來信任,弱關(guān)系帶來信息的特色,特別是地域。因為我們的統(tǒng)計都講震撼,但是我們現(xiàn)在更多的應(yīng)該普及冪律,特別是有一句話,盡管我不知道該怎么證明。但是有人說自然科學(xué)往往震撼,社會科學(xué)往往服從冪律。冪律就像我們今天看到的數(shù)據(jù)一樣,實際上大量的數(shù)據(jù)都是波尾的冪律分布和規(guī)則,那如何從這里洞察呢?如何通過可視化的交互去看到每個節(jié)點的變化呢?這些都需要我們?nèi)ニ伎?。就像我拿到移動的你們跟機站握手的數(shù)據(jù)的時候,其實我就可以算出誰落在二環(huán)內(nèi),誰落在二、三環(huán)之間。
其實如果邏輯上通,其實我是有所有的包括企業(yè)鏈的數(shù)據(jù)的,這些所謂的多邊形的數(shù)據(jù),誰落在企業(yè)鏈里,只要有數(shù)據(jù)的傳感器或者攝象頭能夠感知到,其實我是可以建立一種統(tǒng)計新的思想的,就像你今天嘀嘀打車,告訴你這周邊是什么樣的。所以從這個概念上來講,空間地理數(shù)據(jù)分析又成為大數(shù)據(jù)很重要的東西,而空間地理具有天生的可視化性質(zhì)。所以如何制作各種基于地圖的這樣的圖表,成為我們很重要的事情。比如說我們能不能把北京市所有的垃圾筒都標識出來,能不能把所有人的行為表現(xiàn)出來,而這些東西我們不問為什么,我們就看到是什么,然后去采取行動。所以從這點上來講,就像我拿到了整個北京市的交通線路,甚至每一個公交汽車站,那么這些數(shù)據(jù)為了保證時間所以我沒做成在線的。其實你可以做成在線的,一點就知道它周邊是什么樣的,如果我們再努力做的話,其實我們可以把街景地圖跟谷歌聯(lián)系起來。你可以形成這種統(tǒng)計,這時候他會看到這種結(jié)果,而這種結(jié)果不光是說我們看到數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)、空間地理科學(xué)。
如果我們單獨把數(shù)據(jù)可視化當(dāng)成一門技術(shù),其實就是分析,如果我們能夠把社會、生活、人的關(guān)系他的地理位置如果融在一起,并且讓我們看得見,我們會發(fā)現(xiàn)數(shù)據(jù)可視化其實它是一種數(shù)據(jù)分析,但是它也是一種敘事手段,當(dāng)然我更愿意說它也是一種批判思維。為什么?
過去的統(tǒng)計做出來的都是碩士、博士論文,別人看不懂。當(dāng)然當(dāng)它可視化出來的時候,像百度做的那個,普通大眾都能看得懂。這是可視化的很重要的思維方式。當(dāng)然只有可視化才有批判的資格,否則您來批評我都不會批評,因為您看不懂。所以從這個角度來講,對于我們數(shù)據(jù)分析師來講,我贊成它的廣泛性,我贊成與其他學(xué)科的融合性。但是畢竟我們要學(xué)很多工具,你必須要學(xué)很多技術(shù)。
我一直說這么一句話,叫工欲善其事,必先利其器。在這里我特別強調(diào)工具的重要性的價值,所以我會給出一個工具上的變化。比方說我們應(yīng)該有一個工具的包,如何去做呢?比方說像卡托BB,B3.GS,還提到了語言,其實我們知道現(xiàn)在很多語言都非常的簡化,甚至說了不要重頭編,基本都是模仿。如果看到這張圖不錯,可以立馬把它調(diào)出來。
我們?nèi)绻雽W(xué)好可視化技術(shù),除了R語言等等之外,還需要所謂的分布式計算,云計算的能力,其實還要有你要上網(wǎng),因為現(xiàn)在遠程的終端的訪問,這種基于DS架構(gòu),形成我們可視化以及派發(fā)我們信息的一個很重要的方式,因為從數(shù)據(jù)變成信息,信息變成知識,知識最終還要傳播出去,只有傳播了你才能形成群體的智慧。所以從這點來講我們還需要HTML等方面的技術(shù),使得它交互的動態(tài)去展示更復(fù)雜,更加眩的可視化的作品。
所以可視化在今天不僅僅是可視化了,我今年的本科生已經(jīng)開始招數(shù)據(jù)性的專業(yè),實際上這是大數(shù)據(jù)和新聞學(xué)的融合。在十年前我們所在的統(tǒng)計和我們新聞傳播的融合,我們成立了媒體室調(diào)查,今天數(shù)據(jù)新聞其實就是強調(diào)可視化,而這個可視化,不是培養(yǎng)數(shù)據(jù)科學(xué)家,我培養(yǎng)懂新聞的數(shù)據(jù)藝術(shù)工匠。
馬克思說的人根本區(qū)別就是能制造工具。實際上我們應(yīng)該也要學(xué)會使用工具。對于數(shù)據(jù)分析人才來講,我們要擁有一套泛化的編程思維,掌握R語言,能在互聯(lián)網(wǎng)上關(guān)注于JAVASCRIPT這種在線架構(gòu),學(xué)會欣賞藝術(shù)還能模仿藝術(shù),然后呈現(xiàn)出決策者能夠看懂的可視化效果。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03