
本文由有CDA數(shù)據(jù)分析師小編整理自中國傳媒大學電視與新聞學院教授沈浩在“2015年中國數(shù)據(jù)分析師行業(yè)峰會”的演講,如需轉(zhuǎn)載請注明出處
今天我演講的題目是“發(fā)現(xiàn)數(shù)據(jù)可視化之美”,前一段時間我寫過一本書,里面有這樣一段話,我說這是一個讓我們興奮的時代,數(shù)據(jù)科學讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復(fù)雜行為模式,以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們可用的知識?!洞髷?shù)據(jù)時代》這本書,核心觀點是說大數(shù)據(jù)是工作、生活和思維方式的改變。
這是一個非常有名的一張圖片,這張圖片后面是全球的世界地圖。當有人發(fā)一個推特的時候它就有一個點,當越來越多的點出來以后,我們立刻就感知了,好像中國這塊一片黑,說明我們中國人不怎么用推特。
其實人是一種視覺動物,去感知世界。臉書(Facebook)的一個實習生,用R語言制作了臉書如何掌控地球這樣一個程序,我們一眼就可以看出來人們在社交網(wǎng)絡(luò)上產(chǎn)生的各種溝通效果。我們所面對的大數(shù)據(jù)時代是一種社會科學,是跟人有關(guān)的事情,在我們這兒有一句話,除了上帝所有人都應(yīng)該用數(shù)據(jù)說話。
怎么用數(shù)據(jù)說話?可視化是很重要的用數(shù)據(jù)說話的方式,這種說話最典型的就是你看得見才能做得到,才能做得好。數(shù)據(jù)可視化到底是什么?我們到底應(yīng)該站在什么位置?如果我們從狹義的角度講,數(shù)據(jù)可視化其實還有信息可視化,還有交互可視化。對于數(shù)據(jù)、統(tǒng)計包括數(shù)據(jù)分析,我們一直強調(diào)應(yīng)該有計算機科學,也要有有新媒體,特別是藝術(shù)設(shè)計這樣的一種思維方式,這方面我特別贊成吳(喜之)老師說的泛,泛編程能力。
我是數(shù)據(jù)分析師,但是當我面對很多文科領(lǐng)域的人他看不懂,老讓我去開會,但是我又沒時間,我是不是做個什么東西,讓我不去教你就能看得懂呢?所以我經(jīng)常說一句話,形式要大于內(nèi)容。后面這句話是有的,就是在有內(nèi)容的情況下,形式大于內(nèi)容。
那怎么讓形式大于內(nèi)容呢?很多領(lǐng)域都有可視化,比如數(shù)據(jù)可視化、地理可視化、城市可視化,現(xiàn)在還有新聞可視化,什么都可以可視化??梢暬且寗e人看得懂。所以我建議把企業(yè)的數(shù)據(jù)轉(zhuǎn)化成的儀表盤,大家都會開車,但是看的是儀表盤,背后是一張報表,如果不給你儀表盤,給你報表你會開車嗎,夠嗆。所以在這里如何給管理者、決策者最好的。
早期這個報表是動的,這個報表如果這么看,我衣服怎么樣,我收入就是怎么樣。
所以那個時候我做了很多經(jīng)典的所謂的移動模型,說如果質(zhì)量價格比怎么樣,你發(fā)現(xiàn)它動了。這個東西對別人的感覺來講是不一樣的。特別是對使用者,所以這時候它不光看到了模型,還可以回答問題,包括我們做收視率分析的時候,我們可以用儀表盤的方式呈現(xiàn)數(shù)據(jù)的變化,特別是用這樣的一些模式去感知不同數(shù)據(jù)的變化。
實際上這是曾經(jīng)機場上搞不清楚航班延誤怎么樣,其實都有,但是它沒法兒分散,所以做了一個所謂的動態(tài)顯示屏。這個顯示屏我們可以看到不同的汽車,包括預(yù)警,這些如果你歸納起來,它是早期的可視化,或者叫前端展示。我們叫商業(yè)智能。
你會發(fā)現(xiàn),我們過去的分析已經(jīng)變成了一種思維模式,是一種心理的模式,這種模式是什么呢?你發(fā)現(xiàn)到今天對可視化不是在PPT上演示了,甚至PPT也不能演示了像我們看到很多詞語,當然這個詞語需要我們從網(wǎng)上抓取作出完全個性化的詞語。甚至我們做一些主題的歸類,我們會發(fā)現(xiàn)這東西好像以前都沒有,當然現(xiàn)在它們也在做所謂的文本挖掘,對其他領(lǐng)域,特別是對關(guān)系領(lǐng)域的挖掘。
做數(shù)據(jù)分析的人最常知道的一個工具是什么呢?一個叫漢斯的人,他做了這樣一個產(chǎn)品,他就是不同的散點的圖,只不過在這樣的散點圖中以非常明確直觀的方式讓我們感知到了數(shù)據(jù)的變化,讓我們看到了它的痕跡,數(shù)據(jù)是動態(tài)的。
這個動態(tài)需要我們?nèi)ふ視r間序列,包括我們看到時間序列,重大數(shù)據(jù)集的變化,這個變化通過傳統(tǒng)的散點圖也需要不斷感知。這個散點圖到底在哪兒,我們需要標記什么。這個時候我們需要一個更好的方式,所以有人就看到,在今天的可視化,特別是在在線層面,需要解決一個在線的動態(tài)可視化,而這個可視化可以選擇。
其實隨著技術(shù)的發(fā)展我們越來越看到,這種在線的、動態(tài)的,以及直接在線制作的,甚至制作完圖,我們再去看代碼。大家知道Excel先用數(shù)據(jù)再去做圖,現(xiàn)在有一種新的趨勢,就是先做出圖來,然后再看我的數(shù)據(jù)哪兒有問題。所以是先看圖在看數(shù)據(jù)的趨勢。所以我們需要知道這些的數(shù)據(jù)到底怎么樣,它的位置,標簽等等的情況,當然我們也需要實時的。
我需要說在李克強答中外記者問的時候,我想做一個實時的展示輿情,在微博上抓來數(shù)據(jù),把這些數(shù)據(jù)分詞,讓這些分詞抓到主旨模型。同時這個輿情就是你看到的實時輿情,這是推特的輿情,不光能看到,還能感知到數(shù)據(jù)實時的波動。所以我們經(jīng)常說,到了今天,特別是大數(shù)據(jù)的時代,我們不再追求說它的統(tǒng)計什么樣,二是更關(guān)注我看得見,我感知到這個社會脈絡(luò)。
比方說像大型網(wǎng)絡(luò)的變化,這些網(wǎng)絡(luò)里都有誰,哪個是演員,比如說你點他,你會發(fā)現(xiàn)這個演員就出來了,這個演員跟誰有過交情,它會在這里顯示這些東西。這是基于網(wǎng)絡(luò)的查詢而可視化。國外有一個庫,你可以直接在里面說你想搜一個名人,它立刻告訴你這些名人之間的關(guān)系。
包括這種類似于大屏顯示,我們需要實時在線微博上各種賬號的關(guān)聯(lián),需要這種關(guān)聯(lián)的過程,以及基于這種關(guān)聯(lián)所看到一種統(tǒng)計的現(xiàn)象。我們需要制作各種報表,這個報表不是單一的報表,而是具有關(guān)聯(lián)性的,我們會把不同的數(shù)據(jù)源,不同的報表形態(tài)聚合到同一個屏上,通過我們不斷的關(guān)聯(lián),即使同源、異源都可以報數(shù)據(jù)關(guān)聯(lián)起來,形成各種各樣的表達形式。
包括我們看到在這個形式中各種數(shù)據(jù)的變化,甚至可以去選擇,說如果怎么樣,我們可以把這個數(shù)據(jù)變化,可以雙擊,甚至可以放大數(shù)據(jù)的點,用放大鏡的方式去感知。甚至對于不同的數(shù)據(jù)情況來看,其實我們可以做各種各樣的篩選,比如說可以隱藏掉它。其實在這里面我們也可以看到各種地理信息的展現(xiàn),包括地圖這種感知方式的呈現(xiàn)。這種呈現(xiàn)的方式是什么?就像我們可以畫出整個暴風雪或者風暴的走勢,然后還感知這個風暴走勢的圖。甚至我們可以去篩選不同的風暴現(xiàn)象,我是不是就關(guān)注于這條線的時候可以高量這個東西,實際上我們看到交互式的圖形,可以讓我們更好的洞察事物。
這種洞察我一直說是要inside出來,就像你看到這個地球,這個地球上我們可以洞察什么?其實你如果喜歡紐約的話,可以敲一個紐約,紐約9·11那兩個底座,甚至車在哪兒開都可以看到。所以很重要的是我們能不能夠感知到這個數(shù)據(jù)的變化。我把大數(shù)據(jù)時代分成這樣四個領(lǐng)域。第一個叫數(shù)據(jù)科學,但是如果只分數(shù)據(jù)科學的話可能也包括文本挖掘、語意挖掘等等,除此之外還有個關(guān)系網(wǎng)絡(luò)的挖掘,我們還涉及到空間和地理分析的事情。
如果做一個可視化的東西,就需要這樣的網(wǎng)絡(luò)的關(guān)系,我們需要追蹤整個傳播鏈的每個細節(jié),如果有人發(fā)了一條微博,有十萬條轉(zhuǎn)發(fā)的時候,立刻可以抓下來,看誰在這里起什么樣的作用,他的角色,他的位置,如何決定他傳播的意義。
右邊這個圖是我做的,是一條杜蕾斯的傳播,我把它抓下來以后,我們立刻就可以看到這樣的傳播,他們給我這張圖起了個名字叫“上帝的指紋”。
其實這個東西非常重要,因為它顯示了信息傳播的地域分布,顯示了自組織狀態(tài),顯示了大V在這里起的作用,顯示了信息經(jīng)由橋梁傳播所帶來的強關(guān)系帶來信任,弱關(guān)系帶來信息的特色,特別是地域。因為我們的統(tǒng)計都講震撼,但是我們現(xiàn)在更多的應(yīng)該普及冪律,特別是有一句話,盡管我不知道該怎么證明。但是有人說自然科學往往震撼,社會科學往往服從冪律。冪律就像我們今天看到的數(shù)據(jù)一樣,實際上大量的數(shù)據(jù)都是波尾的冪律分布和規(guī)則,那如何從這里洞察呢?如何通過可視化的交互去看到每個節(jié)點的變化呢?這些都需要我們?nèi)ニ伎?。就像我拿到移動的你們跟機站握手的數(shù)據(jù)的時候,其實我就可以算出誰落在二環(huán)內(nèi),誰落在二、三環(huán)之間。
其實如果邏輯上通,其實我是有所有的包括企業(yè)鏈的數(shù)據(jù)的,這些所謂的多邊形的數(shù)據(jù),誰落在企業(yè)鏈里,只要有數(shù)據(jù)的傳感器或者攝象頭能夠感知到,其實我是可以建立一種統(tǒng)計新的思想的,就像你今天嘀嘀打車,告訴你這周邊是什么樣的。所以從這個概念上來講,空間地理數(shù)據(jù)分析又成為大數(shù)據(jù)很重要的東西,而空間地理具有天生的可視化性質(zhì)。所以如何制作各種基于地圖的這樣的圖表,成為我們很重要的事情。比如說我們能不能把北京市所有的垃圾筒都標識出來,能不能把所有人的行為表現(xiàn)出來,而這些東西我們不問為什么,我們就看到是什么,然后去采取行動。所以從這點上來講,就像我拿到了整個北京市的交通線路,甚至每一個公交汽車站,那么這些數(shù)據(jù)為了保證時間所以我沒做成在線的。其實你可以做成在線的,一點就知道它周邊是什么樣的,如果我們再努力做的話,其實我們可以把街景地圖跟谷歌聯(lián)系起來。你可以形成這種統(tǒng)計,這時候他會看到這種結(jié)果,而這種結(jié)果不光是說我們看到數(shù)據(jù)科學、網(wǎng)絡(luò)科學、空間地理科學。
如果我們單獨把數(shù)據(jù)可視化當成一門技術(shù),其實就是分析,如果我們能夠把社會、生活、人的關(guān)系他的地理位置如果融在一起,并且讓我們看得見,我們會發(fā)現(xiàn)數(shù)據(jù)可視化其實它是一種數(shù)據(jù)分析,但是它也是一種敘事手段,當然我更愿意說它也是一種批判思維。為什么?
過去的統(tǒng)計做出來的都是碩士、博士論文,別人看不懂。當然當它可視化出來的時候,像百度做的那個,普通大眾都能看得懂。這是可視化的很重要的思維方式。當然只有可視化才有批判的資格,否則您來批評我都不會批評,因為您看不懂。所以從這個角度來講,對于我們數(shù)據(jù)分析師來講,我贊成它的廣泛性,我贊成與其他學科的融合性。但是畢竟我們要學很多工具,你必須要學很多技術(shù)。
我一直說這么一句話,叫工欲善其事,必先利其器。在這里我特別強調(diào)工具的重要性的價值,所以我會給出一個工具上的變化。比方說我們應(yīng)該有一個工具的包,如何去做呢?比方說像卡托BB,B3.GS,還提到了語言,其實我們知道現(xiàn)在很多語言都非常的簡化,甚至說了不要重頭編,基本都是模仿。如果看到這張圖不錯,可以立馬把它調(diào)出來。
我們?nèi)绻雽W好可視化技術(shù),除了R語言等等之外,還需要所謂的分布式計算,云計算的能力,其實還要有你要上網(wǎng),因為現(xiàn)在遠程的終端的訪問,這種基于DS架構(gòu),形成我們可視化以及派發(fā)我們信息的一個很重要的方式,因為從數(shù)據(jù)變成信息,信息變成知識,知識最終還要傳播出去,只有傳播了你才能形成群體的智慧。所以從這點來講我們還需要HTML等方面的技術(shù),使得它交互的動態(tài)去展示更復(fù)雜,更加眩的可視化的作品。
所以可視化在今天不僅僅是可視化了,我今年的本科生已經(jīng)開始招數(shù)據(jù)性的專業(yè),實際上這是大數(shù)據(jù)和新聞學的融合。在十年前我們所在的統(tǒng)計和我們新聞傳播的融合,我們成立了媒體室調(diào)查,今天數(shù)據(jù)新聞其實就是強調(diào)可視化,而這個可視化,不是培養(yǎng)數(shù)據(jù)科學家,我培養(yǎng)懂新聞的數(shù)據(jù)藝術(shù)工匠。
馬克思說的人根本區(qū)別就是能制造工具。實際上我們應(yīng)該也要學會使用工具。對于數(shù)據(jù)分析人才來講,我們要擁有一套泛化的編程思維,掌握R語言,能在互聯(lián)網(wǎng)上關(guān)注于JAVASCRIPT這種在線架構(gòu),學會欣賞藝術(shù)還能模仿藝術(shù),然后呈現(xiàn)出決策者能夠看懂的可視化效果。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10