
CDA數(shù)據(jù)分析師 出品
編譯:Mika
【導(dǎo)讀】
Jer Thorp是來(lái)自加拿大溫哥華的藝術(shù)家和教育家,目前居住在紐約。他的可視化藝術(shù)實(shí)踐中探索了科學(xué)和藝術(shù)之間的多重邊界。在本文中他分享了數(shù)據(jù)背后所蘊(yùn)含的令人意想不到的重量。
今天我想跟大家聊聊兩件非常振奮人心的內(nèi)容,你們可能已經(jīng)猜到是什么了,那就是數(shù)據(jù)和歷史。
我不是個(gè)歷史學(xué)家,我不是來(lái)跟你們講歷史定義的,而是想讓你們通過(guò)一個(gè)框架看待歷史。
當(dāng)我們創(chuàng)造歷史,或是撰寫歷史文獻(xiàn)時(shí),我們是在把過(guò)去發(fā)生的事銜接在一起變成一個(gè)故事。
讓我先來(lái)講一個(gè)我自己的故事。和大多數(shù)年齡相仿的計(jì)算機(jī)工作者一樣,我曾是個(gè)善于社交、受歡迎的年輕人,而且擅長(zhǎng)運(yùn)動(dòng)的年輕人。和大多數(shù)年齡差不多的同行一樣,我深受蘋果公司的影響。
但是注意看我選的這個(gè)商標(biāo),左邊那個(gè)蘋果,不是右邊那個(gè)。我深受右邊那個(gè)蘋果的影響,就像每個(gè)人一樣。但是左邊那個(gè)蘋果,看看這標(biāo)志,是個(gè)彩虹,但是順序是錯(cuò)的!真不知道蘋果公司是怎么想的。
但對(duì)蘋果公司我不想說(shuō)太多,我想跟你們說(shuō)一個(gè)機(jī)器的事兒。我現(xiàn)在回過(guò)頭來(lái)想,真是不可思議??!那是一個(gè)周三,是我大概12歲的時(shí)候,我還沒有電腦。到了周四,我就有了一臺(tái)電腦。
你能想象這變化嗎?翻天覆地的變化。沒有事物可以像電腦那樣改變我們的生活。
但我其實(shí)也不想聊電腦的事兒,我想聊聊電腦上的一個(gè)程序。程序的創(chuàng)始人不是左邊那個(gè),右邊那個(gè)才是。大家知道右邊那人是誰(shuí)嗎?從來(lái)都沒人知道,這是比爾·阿特金森。多虧比爾·阿特金森做的很多事,才有了我們現(xiàn)在每天在電腦上看到的東西。
▲ 喬布斯和HyperCard的開發(fā)人員比爾·阿特金森
但是我想重點(diǎn)說(shuō)說(shuō)比爾寫的一個(gè)程序叫做 HyperCard。HyperCard 曾是蘋果電腦的附贈(zèng)品,為蘋果電腦使用者設(shè)計(jì)的,在電腦上編程時(shí)用。
▲ HyperCard
如今聽起來(lái)很瘋狂,這些程序不是我們?nèi)缃袷褂玫腶pp。app是有很大的預(yù)算和傳播度的,而這些程序只是很小的程序。有人用它來(lái)記錄當(dāng)?shù)鼗@球賽的比分,有人用來(lái)整理論文,有人用來(lái)做古典音樂(lè)的教學(xué),或者計(jì)算奇怪的天文日期。
當(dāng)然還有一些是藝術(shù)項(xiàng)目,這是我最喜歡的一個(gè)叫做“If Monks Had Macs”,是個(gè)非線性探索環(huán)境。
▲ If Monks Had Macs
HyperCard讓我感激我能生在這個(gè)時(shí)代,讓我有機(jī)會(huì)使用HyperCard。Hypercard是最后一個(gè)電腦自帶的,設(shè)計(jì)給用戶編程的附贈(zèng)品。如果你告訴電腦的發(fā)明者們有那么一日,所有人都有了電腦,卻沒人知道如何編程,他們一定會(huì)覺得你瘋了。
讓我們快進(jìn)幾年,我最初的職業(yè)是藝術(shù)家。我用電腦創(chuàng)作一些小玩意兒,比如研究植物的生長(zhǎng)系統(tǒng)。還有在這個(gè)例子中,我用像素間的顏色互換來(lái)模擬經(jīng)濟(jì)模式,調(diào)查這些系統(tǒng)是如何運(yùn)作的,我樂(lè)在其中。
這個(gè)項(xiàng)目使我開始從事數(shù)據(jù)相關(guān)的工作,我對(duì)這些圖像的美觀性也很感興趣,這是伊朗和伊拉克。這個(gè)看起來(lái)像個(gè)鐘表,叫做“鐘表圖”。這是另一個(gè)鐘表圖的例子,在“希望”上疊加“絕望”。實(shí)際上是在“希望”上疊加"危機(jī)”,“希望”只有三次被"危機(jī)"覆蓋。
這一系列紐約時(shí)報(bào)作品的巔峰是幾年前,我嘗試把一整年的新聞?wù)系揭粡垐D中。于是這一整年的新聞人物,以及他們之間的關(guān)系都在這一張圖里了。
推特可視化案例-「剛剛到達(dá)」
由此,我對(duì)更活躍的系統(tǒng)產(chǎn)生了興趣。這個(gè)項(xiàng)目叫“剛剛到達(dá)”。我看人們發(fā)推特“我剛飛到夏威夷!”——你們懂的,人們總是不經(jīng)意地在推特上談到這些?!拔艺娴牟皇窃陟乓?,但我剛到夏威夷“。
▲ 推特可視化項(xiàng)目--「剛剛到達(dá)」
然后我開始描繪人們的旅程,希望可以利用社交網(wǎng)絡(luò)和背后的數(shù)據(jù)建立個(gè)模型來(lái)跟蹤人們的動(dòng)向。對(duì)流行病學(xué)家來(lái)說(shuō),這將是十分寶貴的信息。
推特可視化案例-「互道早安」
這是個(gè)類似的項(xiàng)目——它更有趣。在推特上看世界各地的人們互道早安。順便說(shuō)一句,我才知道在溫哥華西岸的人真的比東岸的人起床晚,互相道早安也晚,東岸的人也更有冒險(xiǎn)精神。
▲ 推特可視化項(xiàng)目「互道早安」
再給你們看一個(gè)項(xiàng)目,這個(gè)可能更實(shí)用,我試圖把開普勒項(xiàng)目的數(shù)據(jù)做成更易懂的圖像。我剛才給你們看的所有作品,都是做著玩的。
聽起來(lái)有點(diǎn)奇怪,但這就像HyperCard。我自己創(chuàng)造一些工具,然后我可以和一些人分享。但都是為了自己開心,做著玩的。
所以其實(shí)很難給這些工具明確的定位,我的創(chuàng)作介于科學(xué)、藝術(shù)和設(shè)計(jì)之間。從HyperCard開始直到今天,我都在建立可視化工具來(lái)幫助我理解各種系統(tǒng)。
如今我在紐約時(shí)報(bào)工作,我是個(gè)數(shù)據(jù)藝術(shù)家。工作期間,我接觸到很多有趣的項(xiàng)目。
今天會(huì)給你們看其中兩個(gè)。第一個(gè)是和馬克·漢森一起做的,馬克是加州洛杉磯的統(tǒng)計(jì)學(xué)教授和傳媒藝術(shù)家。馬克來(lái)時(shí)報(bào)時(shí)提過(guò)一個(gè)有趣,而又似乎顯而易見的問(wèn)題。當(dāng)人們?cè)诰W(wǎng)上傳播信息時(shí),信息是如何從A傳到B,或從A傳到B、C、D的?
我們都知道人們?cè)诰W(wǎng)絡(luò)上分享信息,卻不知道傳播過(guò)程中發(fā)生了什么。所以我們決定創(chuàng)造工具來(lái)探索這個(gè)問(wèn)題,這個(gè)工具叫做Cascade。
我們看這些系統(tǒng)時(shí),一件事導(dǎo)致另一些事,我們稱之為建立Cascade。這些Cascade是逐漸發(fā)生的,所以我們的跟蹤建模也需要一段時(shí)間。
▲ Cascade
很多人都在傳播紐約時(shí)報(bào)上的信息,因此Cascade看起來(lái)其實(shí)是這樣的。這是個(gè)常見的Cascade,最左下方是第一個(gè)事件,當(dāng)信息從一個(gè)人傳播到另一個(gè)人時(shí),這個(gè)點(diǎn)向上沿y軸延伸 y軸是分離程度。同時(shí)向x軸延伸 x軸是時(shí)間。
現(xiàn)在我們可以從很多角度看這個(gè)問(wèn)題,這是線型角度,這個(gè)是把線型堆疊,成為這樣的立體角度。
今天,時(shí)報(bào)每個(gè)月發(fā)表約7000篇文章,所以建立這個(gè)工具時(shí)很重要的一點(diǎn)是,把它建成一個(gè)可探索的模型,這樣人們可以在大量數(shù)據(jù)中挖掘他們需要的信息。
就像是給人們提供了一輛車,在這大量的數(shù)據(jù)中暢通無(wú)阻,這樣人們可以在大量數(shù)據(jù)中挖掘他們需要的信息。
實(shí)況中的Cascade 看起來(lái)是這樣的。
不得不說(shuō),這是一個(gè)重要的時(shí)刻。那么久以來(lái),我們接受了太多假新聞。所以當(dāng)我們第一次看到這一幕時(shí),就好像考古學(xué)家把灰塵從恐龍骨架上抖落一樣。
我們發(fā)現(xiàn)了并第一次看到,這些網(wǎng)絡(luò)共享信息的結(jié)構(gòu)。拿恐龍來(lái)打比方好像挺合適的,因?yàn)槲覀兪窃趯?duì)這些事之間的關(guān)聯(lián),做概率性的推測(cè)。當(dāng)我們看著這些碎片信息做出假設(shè)時(shí),我們盡力確保它們的嚴(yán)謹(jǐn)性。
推特是故事的一部分,敘事的一部分。我們?cè)趧?chuàng)建歷史,但它們不過(guò)是短暫的歷史。
這些大型的Cascades往往是最有趣的,當(dāng)然有些小型的Cascades 也是很有意思的。這是我很喜歡的一個(gè) 叫“rabbi cascade”。是拉比們(猶太教學(xué)者) 圍繞紐約時(shí)報(bào)中的一篇文章的對(duì)話。
實(shí)際上,宗教工作者休息時(shí)間非常有限,周六和周日他們好像不太能放假。
于是在這個(gè)Cascade里,有一群拉比在談?wù)撘粋€(gè)紐約時(shí)報(bào)發(fā)表的故事。其中一個(gè)拉比給自己取的推特用戶名很厲害叫“ The Velveteen Rabbi” (注:Velve teen Rabbit/絨布小兔子是一本英國(guó)兒童讀物,此處取名去掉了t)。如果沒有這個(gè)初步工具,我們永遠(yuǎn)不會(huì)找到這些信息,這些信息只會(huì)停留在某些角落,永不得見天日。把信息整合,然后建立敘事性結(jié)構(gòu),創(chuàng)作歷史,我發(fā)現(xiàn)了無(wú)窮的樂(lè)趣。
我兩年前搬到紐約,在紐約人人都有一個(gè)故事,是關(guān)于發(fā)生在2001年9月11日的那個(gè)重大事件。我自己的那個(gè)故事有些復(fù)雜,因?yàn)槲一撕芏鄷r(shí)間在曼哈頓的9/11事件紀(jì)念碑。
9/11事件紀(jì)念碑的核心理念在于那些紀(jì)念碑上的名字,不是按字母順序排列,也不是按年份排列,而是通過(guò)可以體現(xiàn)遇難者之間的關(guān)系的方式排列。弟兄和弟兄一起,同事和同事一起,所以這個(gè)紀(jì)念碑考慮了種種連接,這些人曾經(jīng)在生活中的連接。
▲ 9/11事件紀(jì)念碑
我和一個(gè)叫做Local Projects的公司合作,做了一個(gè)算法軟件,來(lái)幫助建筑師們決定這個(gè)紀(jì)念碑的排列方式。
一共有將近3000個(gè)名字,將近1500個(gè)鄰接的請(qǐng)求。這些連接的請(qǐng)求,所以這是一個(gè)很密集的故事和敘事,需要在一個(gè)紀(jì)念碑上呈現(xiàn)。我和Jake Barton一起制作了這個(gè)軟件,讓建筑師可以首先制作一個(gè)可以滿足所有請(qǐng)求的布局,然后在某些地方做改動(dòng),從而可以表達(dá)他們想要的故事。
我想在我們這個(gè)社交網(wǎng)絡(luò)統(tǒng)領(lǐng)的時(shí)代,這個(gè)紀(jì)念碑是個(gè)與時(shí)俱進(jìn)的概念。因?yàn)檫@些現(xiàn)實(shí)中的社交網(wǎng)絡(luò),在紀(jì)念碑中能夠得以呈現(xiàn)。最令人感動(dòng)的就是前去紀(jì)念碑,看到這些人的名字是如何彼此相鄰,來(lái)呈現(xiàn)他們?cè)谑罆r(shí)的生活的。
▲ 9/11事件紀(jì)念碑
那么,這些對(duì)于我們的生活有什么影響呢?
我不知道你們還記不記得,今年春天出了這么一件事,飽受爭(zhēng)議。人們發(fā)現(xiàn)在iPhone上,還有在電腦上,有大量定位信息被儲(chǔ)存。
蘋果公司回應(yīng)說(shuō),這些定位信息跟你們無(wú)關(guān),而跟你們居所的無(wú)線網(wǎng)絡(luò)有關(guān)。所以這跟你們無(wú)關(guān),而是跟你們?cè)谀挠嘘P(guān)。
這是很寶貴的數(shù)據(jù),對(duì)研究者來(lái)說(shuō) 這些移動(dòng)數(shù)據(jù)像金子一樣寶貴。于是我們想到:有多少人都在用iPhone啊?在座的有多少人用iPhone?所以在這個(gè)房間里,就有研究者們很喜歡的大量的定位信息。
于是我們創(chuàng)造了一個(gè)叫做Open Paths的系統(tǒng),它可以讓人們上傳iPhone的數(shù)據(jù),并與研究人員建立代理關(guān)系來(lái)共享這些數(shù)據(jù),把這些信息貢獻(xiàn)給有需要的人。
Open Paths的初步模型很成功,我們收到了成千套的數(shù)據(jù)。我們制作了一個(gè)界面,讓人們可以看到自己的生活是如何展開的。從這些被你忽視在手機(jī)里的蛛絲馬跡中。我們沒有想到這個(gè)體驗(yàn)會(huì)是這樣感人。
我上傳數(shù)據(jù)的時(shí)候心想,沒什么大不了的;我知道我住在哪;我知道我在哪上班;通過(guò)這個(gè)我能看到什么?
結(jié)果我看到了我來(lái)到紐約,走下飛機(jī)的那一刻,那一晚去吃泰餐的餐館,想象著紐約新生活的開始。我遇到女友的那一天,這是拉瓜迪亞機(jī)場(chǎng),這是在阿姆斯特丹大道上的泰國(guó)餐廳,這是我遇到我女友的時(shí)候。
你們看到了嗎?我第一次講這些故事和我第二次講的時(shí)候,有什么區(qū)別?
我們不經(jīng)意間,把這些信息放在了人類語(yǔ)境中,通過(guò)把信息放在生活語(yǔ)境中,信息就產(chǎn)生了意義,這非常非常重要。
因?yàn)槲覀兊臍v史被保存在這些手機(jī)里,從這個(gè)角度來(lái)看這個(gè)人類語(yǔ)境的角度。
首先,我們可以更好理解我們,分享的是哪一類的信息,但如果我們可以把其他信息也放在人類語(yǔ)境中。我想很多事情都會(huì)被改變,因?yàn)樗茏詣?dòng)讓在這些系統(tǒng)的人們身臨其境,這會(huì)導(dǎo)致最基本的尊重。
在我看來(lái)這一點(diǎn)在技術(shù)行業(yè)中往往是缺失的。當(dāng)我們?cè)谔幚硪恍┦虑?,比如隱私時(shí),如果我們明白數(shù)字不僅僅是數(shù)字,而是與現(xiàn)實(shí)連接在一起的,它們就變得舉足輕重。有了這一層理解,對(duì)話就可以變得不同。
你們中多少人曾點(diǎn)過(guò)按鈕,許可第三方公司獲取你的定位信息的?很多人吧。第三方公司是開發(fā)商,第二方公司是蘋果,可是第一方卻從沒有獲得這些信息!
我想這是因?yàn)槲覀儼堰@些信息看作是抽象的,可以被擱置不顧的,我們沒有把它們放入人類語(yǔ)境中,使它們的價(jià)值變得更重要。我請(qǐng)求你們做的事很簡(jiǎn)單,從更人類語(yǔ)境的角度看待數(shù)據(jù),這真的不難。
當(dāng)你看到股價(jià)時(shí),想一下背后的人類語(yǔ)境。當(dāng)你看到貸款報(bào)告時(shí),想一下背后的人類語(yǔ)境。
很顯然,大數(shù)據(jù)是巨大的商業(yè)。一個(gè)產(chǎn)業(yè)巨頭在崛起,想一想我們?cè)谥暗馁Y源產(chǎn)業(yè)中做得如何,我們做得不好。我想一部分問(wèn)題在于,我們沒有積極參與到有關(guān)人文語(yǔ)境的各方面對(duì)話中。
我要請(qǐng)求你們做的另一件事是,讓更多人參與到這個(gè)對(duì)話中,藝術(shù)家、詩(shī)人、作家讓有人文學(xué)科背景的人們加入到討論中。
因?yàn)槲蚁嘈艛?shù)據(jù)世界可以革新我們的生活。這和我們?cè)谫Y源產(chǎn)業(yè)、金融產(chǎn)業(yè)的嘗試不同。讓我們把人文元素帶到故事中,我相信我們一定能帶著它走向無(wú)限潛能的地方。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10