
制作一個大數(shù)據(jù)故事的5個步驟
從事數(shù)據(jù)工作很多年,我總結(jié)了一套好的實用方法與大家分享。它不是唯一的方法,但對于我來說,它是一種用數(shù)據(jù)講故事的最好方法。
我不用太強(qiáng)調(diào)。這些日子,我努力將每個故事數(shù)字化,包括筆記、圖片、音頻、視頻和文檔。怎么做?一些實用的工具如下:
軟件DocumentCloud ——允許你上傳PDF文件并且實現(xiàn)光學(xué)字符識別,也叫OCR。OCR可以掃描文檔,并將其轉(zhuǎn)化為可搜索的文件。它并不完美,但這是一個開始。
軟件DocumentCloud 也有驚人的嵌入特征,允許你強(qiáng)調(diào)和注釋段落。最后,它擁有一個復(fù)雜卻很有用的時間軸和一個很棒的實體識別引擎。IRE(美國無線電工程師學(xué)會)可以使用。
DocumentCloud軟件允許你上傳PDF文件,并且實現(xiàn)光學(xué)字符識別。
谷歌文檔——和DocumentCloud功能差不多,而且能很好地適應(yīng)使用谷歌套件的新聞編輯室,同時能自動完成光學(xué)字符識別文檔。
文字記錄——海外文字記錄服務(wù)已經(jīng)將費用降低到每分鐘1美分,而且工作質(zhì)量不錯。所以,當(dāng)你有一個重要采訪需要傳到網(wǎng)上,這是個很好的方法。不久的將來這些肯定會轉(zhuǎn)變,但是費用會明顯增加,例如每分鐘3美元。rev.com, TranscriptionAssociates, Transcribe, andTranscribeMe服務(wù)都能提供很棒的文字記錄服務(wù)。警告:如果這是一個關(guān)鍵引用,請回放錄音,就像美國國家橄欖球聯(lián)盟那樣。
光學(xué)字符識別掃描——如果你有大量紙質(zhì)文件需要轉(zhuǎn)換成可索引的PDF文件,通常最便宜的方法是在城鎮(zhèn)找一家合法的服務(wù)公司。他們每頁收費15到25美分,所以,即使你有數(shù)百頁紙需要掃描,價格也不會太貴。合法服務(wù)公司速度很快,而且他們有高質(zhì)量的光學(xué)字符識別儀器用來識別文檔并將他們轉(zhuǎn)換成可以搜索的文本。
Excel或Google Spreadsheets(電子表格工具)——我的所有工作幾乎都用Excel或Google Spreadsheets完成。使用Excel不一定非要有一個計算機(jī)數(shù)據(jù)庫。它可以很方便地創(chuàng)建、分類和組織很小的信息表。比如,關(guān)于在伊拉克受傷的平民承包商的故事,我的腦海中立馬會浮現(xiàn)很多事。于是,我建立了一個涵蓋約30個案例的電子表格,并添加了少量的數(shù)據(jù)。
Idea Organizers——如果是一項大的工程,你可以考慮使用與Office軟件一體化的印象筆記或 Microsoft’s OneNote這樣的特殊組織軟件。這些精心設(shè)計的軟件可以粘貼至網(wǎng)頁,追蹤數(shù)據(jù)來源和組織數(shù)據(jù)。在工作中我很少使用這些軟件,但很多人喜歡它,因為它可以將所有的東西放到一個軟件包里。
類似于印象筆記這樣的程序能夠幫助你組織數(shù)據(jù)和理念。
幾乎每個故事都可以從數(shù)據(jù)之中獲益。數(shù)據(jù)有助于將故事置于背景中,使你的故事脫穎而出,而這點也越來越容易做到。
數(shù)據(jù)分析不必太復(fù)雜。它可以像寫一樁謀殺案,并指出今年和去年的謀殺案數(shù)量對比那樣簡單。它也可以像上市公司追溯期權(quán)支付的多元回歸分析那樣的復(fù)雜。
但重點是:數(shù)據(jù)總是存在的。不要逃避它,而應(yīng)該去利用它。
試試這個練習(xí)。隨機(jī)抽出一張報紙,翻開一個頁面。先看前幾個故事,問問自己:這個故事還可以添加哪些背景?
如何找數(shù)據(jù)?你可以從這幾個聯(lián)邦一級的網(wǎng)站上開始著手。你會發(fā)現(xiàn)州政府和地方政府往往比聯(lián)邦政府回復(fù)地更快。
data.gov——聯(lián)邦政府?dāng)?shù)據(jù)的主要存儲庫。按照主題和機(jī)構(gòu),你可以搜索到聯(lián)邦調(diào)查局已公開發(fā)布的數(shù)據(jù)集。
在Data.Gov,你可以搜索到聯(lián)邦調(diào)查局已公開發(fā)布的數(shù)據(jù)集。
fbo.gov——所有聯(lián)邦政府外包出去參加投標(biāo)的名單。有關(guān)項目和聯(lián)系人姓名的有用信息。
USAspending.gov——列出所有已授權(quán)的政府合同和分包合同,是fbo.gov的后續(xù)跟進(jìn)。通過關(guān)鍵字搜索,可以找到你所在的國家或城鎮(zhèn)的合同。
Enigma.io——由政府、大學(xué)、企業(yè)和組織提供的數(shù)據(jù)集的奇妙融合。
Govzilla——這個網(wǎng)站專門為獲取競爭情報而創(chuàng)建,但包含了許多驚人有用的信息自由法信息。從本質(zhì)上講,該網(wǎng)站不斷為一些機(jī)構(gòu),包括美國食品藥物管理局、美國國稅局和美國國立衛(wèi)生研究院,提供信息自由法的審查報告。它們的成本較高。但是如果你需要最新的數(shù)據(jù),就在這兒搜索。
Dataportals——試圖收集世界上所有公開的的數(shù)據(jù)源。無論成功與否,它都有大量實用的國際數(shù)據(jù)。
無論你的調(diào)查性報道采取何種形式,或長或短,敘述性或主題性,人物主導(dǎo)或話題性,總存在一定順序。
當(dāng)我坐下來寫報道時,第一件事就是創(chuàng)建一個時間軸。為了理清哥倫比亞北部一個叫圣多明哥村莊的轟炸事件,我創(chuàng)建了一份長達(dá)11頁的時間軸。它的確對我弄清事件的發(fā)展有很大的幫助。
更近的一個例子,關(guān)于創(chuàng)建利比亞內(nèi)戰(zhàn)歷史的時間軸,就有98頁467,18個字。一個龐大的工程?是的,但總體而言它很有必要。
時間軸的三點好處
我傾向于使用電子表格創(chuàng)建時間軸。但是,稍作提示,你也可以在 Word 中創(chuàng)建時間軸,只要你使用像 YYYY-MM-DD 這樣的日期格式去開始這一段文字。若以此格式開頭,Word 會將段落按照日期排序。所以你可以在 Word 文檔底部輸入信息,然后只需確保時間軸是按時間排序即可。
依我拙見,在報道方面依然需要時間軸工具。它們更注重作品本身而非數(shù)據(jù)收集。有些基于網(wǎng)絡(luò)的工具,比如Tiki Toki(交互式多媒體時間軸制作應(yīng)用)和Dipity(在線時間軸應(yīng)用服務(wù)),還有來自北卡羅來納大學(xué)騎士實驗室的軟件版本(比如timelinejs)或非盈利新聞機(jī)構(gòu)ProPublica的TimelineSetter。但不論哪一個,我都不太滿意。一個電子表格或Word文檔足以滿足工作需求。
現(xiàn)在我們要著手處理工作了。你需要讓故事說話,那將意味著要有會講故事的人。
當(dāng)我做筆記或與某人交談時,我總是在一些聽起來不錯的引語前標(biāo)記上星號。這樣,當(dāng)我回顧筆記時,只用尋找星號去創(chuàng)建一個引語集就可以。然后從引語集中找出最好的10條、15條或20條引語。其次,還有另外兩個原因:
另一件大事是尋找人物。當(dāng)然,這并不總是可行的。如果你有一個故事,需要花費大量時間在許多人物上,你最好按照年表順序簡單表述,讓時間成為主線。也許沒有一個人物能夠很好地融于整個故事,那么最壞的打算就是盡力讓一個人物“適應(yīng)”一件軼事。
另一方面,如果你有一個能滔滔不絕舉出例證的人物,他有著強(qiáng)大而動人的生活故事,能夠很好地闡明你要說的內(nèi)容,這就意味著你擁有了“魔法”。盡最大努力去講述他的故事。
這是非常難的部分。你要弄清楚如何去講述一個故事。然而,好的消息是,在一到三的步驟中,你可以得到暗示知道你都要做些什么。
我最喜歡的故事結(jié)構(gòu)是時間軸的方式。如果你在展現(xiàn)故事時或多或少地用到時間軸,它將會幫助讀者理解正在發(fā)生的事,使得事件之間的聯(lián)系更加明朗化,更具有可讀性。事實上,我說時間軸是講述任何故事的唯一方式可能會招來責(zé)難。
一般來說,我會寫一個梗概來總結(jié)故事和要點。通常我會試圖找到一個能快速識別的點或者簡單的硬新聞,以便于我的查看。然后我會填充核心段落、一些重要的發(fā)現(xiàn)和一系列對于發(fā)現(xiàn)的即時反應(yīng)。
這些總共會占到10到15個段落。到那時候,讀者就會知道這篇文章是否值得花時間深入閱讀。高潮過后,我會中止,然后順著時間軸來展開余下的故事。
我的第二種選擇是主題式文章。換句話說,我會分塊來闡述主題。我將其稱為混合體模式。但即使是這樣,我也會盡可能順著時間軸,用一些不超出主題范圍的軼事來充實故事。
以上是我講故事的方式。雖然按照步驟寫了下來,但我寫故事的進(jìn)度幾乎和時間平行。從報告的開始,我就在想怎樣使故事更具人格化和敘事性。我正在從事數(shù)據(jù)化工作。當(dāng)我發(fā)現(xiàn)更多數(shù)據(jù)、更多人物或者當(dāng)數(shù)據(jù)化揭示新趨勢的時候,它沒有以固定的順序發(fā)生,而是以一種不斷反復(fù)的方式進(jìn)行。
這是一個任重而道遠(yuǎn)的過程。但在最后,我認(rèn)為讀者意在尋求一種有力量、敘述生動且內(nèi)容豐富的的故事。我們不能總是發(fā)表那些奇怪事物、縮減的能源和瀕危物種的故事。但我們可以努力改變。當(dāng)我們找對了方向,那將會不同凡響。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11