
制作一個(gè)大數(shù)據(jù)故事的5個(gè)步驟
從事數(shù)據(jù)工作很多年,我總結(jié)了一套好的實(shí)用方法與大家分享。它不是唯一的方法,但對(duì)于我來(lái)說(shuō),它是一種用數(shù)據(jù)講故事的最好方法。
我不用太強(qiáng)調(diào)。這些日子,我努力將每個(gè)故事數(shù)字化,包括筆記、圖片、音頻、視頻和文檔。怎么做?一些實(shí)用的工具如下:
軟件DocumentCloud ——允許你上傳PDF文件并且實(shí)現(xiàn)光學(xué)字符識(shí)別,也叫OCR。OCR可以掃描文檔,并將其轉(zhuǎn)化為可搜索的文件。它并不完美,但這是一個(gè)開(kāi)始。
軟件DocumentCloud 也有驚人的嵌入特征,允許你強(qiáng)調(diào)和注釋段落。最后,它擁有一個(gè)復(fù)雜卻很有用的時(shí)間軸和一個(gè)很棒的實(shí)體識(shí)別引擎。IRE(美國(guó)無(wú)線電工程師學(xué)會(huì))可以使用。
DocumentCloud軟件允許你上傳PDF文件,并且實(shí)現(xiàn)光學(xué)字符識(shí)別。
谷歌文檔——和DocumentCloud功能差不多,而且能很好地適應(yīng)使用谷歌套件的新聞編輯室,同時(shí)能自動(dòng)完成光學(xué)字符識(shí)別文檔。
文字記錄——海外文字記錄服務(wù)已經(jīng)將費(fèi)用降低到每分鐘1美分,而且工作質(zhì)量不錯(cuò)。所以,當(dāng)你有一個(gè)重要采訪需要傳到網(wǎng)上,這是個(gè)很好的方法。不久的將來(lái)這些肯定會(huì)轉(zhuǎn)變,但是費(fèi)用會(huì)明顯增加,例如每分鐘3美元。rev.com, TranscriptionAssociates, Transcribe, andTranscribeMe服務(wù)都能提供很棒的文字記錄服務(wù)。警告:如果這是一個(gè)關(guān)鍵引用,請(qǐng)回放錄音,就像美國(guó)國(guó)家橄欖球聯(lián)盟那樣。
光學(xué)字符識(shí)別掃描——如果你有大量紙質(zhì)文件需要轉(zhuǎn)換成可索引的PDF文件,通常最便宜的方法是在城鎮(zhèn)找一家合法的服務(wù)公司。他們每頁(yè)收費(fèi)15到25美分,所以,即使你有數(shù)百頁(yè)紙需要掃描,價(jià)格也不會(huì)太貴。合法服務(wù)公司速度很快,而且他們有高質(zhì)量的光學(xué)字符識(shí)別儀器用來(lái)識(shí)別文檔并將他們轉(zhuǎn)換成可以搜索的文本。
Excel或Google Spreadsheets(電子表格工具)——我的所有工作幾乎都用Excel或Google Spreadsheets完成。使用Excel不一定非要有一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)。它可以很方便地創(chuàng)建、分類(lèi)和組織很小的信息表。比如,關(guān)于在伊拉克受傷的平民承包商的故事,我的腦海中立馬會(huì)浮現(xiàn)很多事。于是,我建立了一個(gè)涵蓋約30個(gè)案例的電子表格,并添加了少量的數(shù)據(jù)。
Idea Organizers——如果是一項(xiàng)大的工程,你可以考慮使用與Office軟件一體化的印象筆記或 Microsoft’s OneNote這樣的特殊組織軟件。這些精心設(shè)計(jì)的軟件可以粘貼至網(wǎng)頁(yè),追蹤數(shù)據(jù)來(lái)源和組織數(shù)據(jù)。在工作中我很少使用這些軟件,但很多人喜歡它,因?yàn)樗梢詫⑺械臇|西放到一個(gè)軟件包里。
類(lèi)似于印象筆記這樣的程序能夠幫助你組織數(shù)據(jù)和理念。
幾乎每個(gè)故事都可以從數(shù)據(jù)之中獲益。數(shù)據(jù)有助于將故事置于背景中,使你的故事脫穎而出,而這點(diǎn)也越來(lái)越容易做到。
數(shù)據(jù)分析不必太復(fù)雜。它可以像寫(xiě)一樁謀殺案,并指出今年和去年的謀殺案數(shù)量對(duì)比那樣簡(jiǎn)單。它也可以像上市公司追溯期權(quán)支付的多元回歸分析那樣的復(fù)雜。
但重點(diǎn)是:數(shù)據(jù)總是存在的。不要逃避它,而應(yīng)該去利用它。
試試這個(gè)練習(xí)。隨機(jī)抽出一張報(bào)紙,翻開(kāi)一個(gè)頁(yè)面。先看前幾個(gè)故事,問(wèn)問(wèn)自己:這個(gè)故事還可以添加哪些背景?
如何找數(shù)據(jù)?你可以從這幾個(gè)聯(lián)邦一級(jí)的網(wǎng)站上開(kāi)始著手。你會(huì)發(fā)現(xiàn)州政府和地方政府往往比聯(lián)邦政府回復(fù)地更快。
data.gov——聯(lián)邦政府?dāng)?shù)據(jù)的主要存儲(chǔ)庫(kù)。按照主題和機(jī)構(gòu),你可以搜索到聯(lián)邦調(diào)查局已公開(kāi)發(fā)布的數(shù)據(jù)集。
在Data.Gov,你可以搜索到聯(lián)邦調(diào)查局已公開(kāi)發(fā)布的數(shù)據(jù)集。
fbo.gov——所有聯(lián)邦政府外包出去參加投標(biāo)的名單。有關(guān)項(xiàng)目和聯(lián)系人姓名的有用信息。
USAspending.gov——列出所有已授權(quán)的政府合同和分包合同,是fbo.gov的后續(xù)跟進(jìn)。通過(guò)關(guān)鍵字搜索,可以找到你所在的國(guó)家或城鎮(zhèn)的合同。
Enigma.io——由政府、大學(xué)、企業(yè)和組織提供的數(shù)據(jù)集的奇妙融合。
Govzilla——這個(gè)網(wǎng)站專門(mén)為獲取競(jìng)爭(zhēng)情報(bào)而創(chuàng)建,但包含了許多驚人有用的信息自由法信息。從本質(zhì)上講,該網(wǎng)站不斷為一些機(jī)構(gòu),包括美國(guó)食品藥物管理局、美國(guó)國(guó)稅局和美國(guó)國(guó)立衛(wèi)生研究院,提供信息自由法的審查報(bào)告。它們的成本較高。但是如果你需要最新的數(shù)據(jù),就在這兒搜索。
Dataportals——試圖收集世界上所有公開(kāi)的的數(shù)據(jù)源。無(wú)論成功與否,它都有大量實(shí)用的國(guó)際數(shù)據(jù)。
無(wú)論你的調(diào)查性報(bào)道采取何種形式,或長(zhǎng)或短,敘述性或主題性,人物主導(dǎo)或話題性,總存在一定順序。
當(dāng)我坐下來(lái)寫(xiě)報(bào)道時(shí),第一件事就是創(chuàng)建一個(gè)時(shí)間軸。為了理清哥倫比亞北部一個(gè)叫圣多明哥村莊的轟炸事件,我創(chuàng)建了一份長(zhǎng)達(dá)11頁(yè)的時(shí)間軸。它的確對(duì)我弄清事件的發(fā)展有很大的幫助。
更近的一個(gè)例子,關(guān)于創(chuàng)建利比亞內(nèi)戰(zhàn)歷史的時(shí)間軸,就有98頁(yè)467,18個(gè)字。一個(gè)龐大的工程?是的,但總體而言它很有必要。
時(shí)間軸的三點(diǎn)好處
我傾向于使用電子表格創(chuàng)建時(shí)間軸。但是,稍作提示,你也可以在 Word 中創(chuàng)建時(shí)間軸,只要你使用像 YYYY-MM-DD 這樣的日期格式去開(kāi)始這一段文字。若以此格式開(kāi)頭,Word 會(huì)將段落按照日期排序。所以你可以在 Word 文檔底部輸入信息,然后只需確保時(shí)間軸是按時(shí)間排序即可。
依我拙見(jiàn),在報(bào)道方面依然需要時(shí)間軸工具。它們更注重作品本身而非數(shù)據(jù)收集。有些基于網(wǎng)絡(luò)的工具,比如Tiki Toki(交互式多媒體時(shí)間軸制作應(yīng)用)和Dipity(在線時(shí)間軸應(yīng)用服務(wù)),還有來(lái)自北卡羅來(lái)納大學(xué)騎士實(shí)驗(yàn)室的軟件版本(比如timelinejs)或非盈利新聞機(jī)構(gòu)ProPublica的TimelineSetter。但不論哪一個(gè),我都不太滿意。一個(gè)電子表格或Word文檔足以滿足工作需求。
現(xiàn)在我們要著手處理工作了。你需要讓故事說(shuō)話,那將意味著要有會(huì)講故事的人。
當(dāng)我做筆記或與某人交談時(shí),我總是在一些聽(tīng)起來(lái)不錯(cuò)的引語(yǔ)前標(biāo)記上星號(hào)。這樣,當(dāng)我回顧筆記時(shí),只用尋找星號(hào)去創(chuàng)建一個(gè)引語(yǔ)集就可以。然后從引語(yǔ)集中找出最好的10條、15條或20條引語(yǔ)。其次,還有另外兩個(gè)原因:
另一件大事是尋找人物。當(dāng)然,這并不總是可行的。如果你有一個(gè)故事,需要花費(fèi)大量時(shí)間在許多人物上,你最好按照年表順序簡(jiǎn)單表述,讓時(shí)間成為主線。也許沒(méi)有一個(gè)人物能夠很好地融于整個(gè)故事,那么最壞的打算就是盡力讓一個(gè)人物“適應(yīng)”一件軼事。
另一方面,如果你有一個(gè)能滔滔不絕舉出例證的人物,他有著強(qiáng)大而動(dòng)人的生活故事,能夠很好地闡明你要說(shuō)的內(nèi)容,這就意味著你擁有了“魔法”。盡最大努力去講述他的故事。
這是非常難的部分。你要弄清楚如何去講述一個(gè)故事。然而,好的消息是,在一到三的步驟中,你可以得到暗示知道你都要做些什么。
我最喜歡的故事結(jié)構(gòu)是時(shí)間軸的方式。如果你在展現(xiàn)故事時(shí)或多或少地用到時(shí)間軸,它將會(huì)幫助讀者理解正在發(fā)生的事,使得事件之間的聯(lián)系更加明朗化,更具有可讀性。事實(shí)上,我說(shuō)時(shí)間軸是講述任何故事的唯一方式可能會(huì)招來(lái)責(zé)難。
一般來(lái)說(shuō),我會(huì)寫(xiě)一個(gè)梗概來(lái)總結(jié)故事和要點(diǎn)。通常我會(huì)試圖找到一個(gè)能快速識(shí)別的點(diǎn)或者簡(jiǎn)單的硬新聞,以便于我的查看。然后我會(huì)填充核心段落、一些重要的發(fā)現(xiàn)和一系列對(duì)于發(fā)現(xiàn)的即時(shí)反應(yīng)。
這些總共會(huì)占到10到15個(gè)段落。到那時(shí)候,讀者就會(huì)知道這篇文章是否值得花時(shí)間深入閱讀。高潮過(guò)后,我會(huì)中止,然后順著時(shí)間軸來(lái)展開(kāi)余下的故事。
我的第二種選擇是主題式文章。換句話說(shuō),我會(huì)分塊來(lái)闡述主題。我將其稱為混合體模式。但即使是這樣,我也會(huì)盡可能順著時(shí)間軸,用一些不超出主題范圍的軼事來(lái)充實(shí)故事。
以上是我講故事的方式。雖然按照步驟寫(xiě)了下來(lái),但我寫(xiě)故事的進(jìn)度幾乎和時(shí)間平行。從報(bào)告的開(kāi)始,我就在想怎樣使故事更具人格化和敘事性。我正在從事數(shù)據(jù)化工作。當(dāng)我發(fā)現(xiàn)更多數(shù)據(jù)、更多人物或者當(dāng)數(shù)據(jù)化揭示新趨勢(shì)的時(shí)候,它沒(méi)有以固定的順序發(fā)生,而是以一種不斷反復(fù)的方式進(jìn)行。
這是一個(gè)任重而道遠(yuǎn)的過(guò)程。但在最后,我認(rèn)為讀者意在尋求一種有力量、敘述生動(dòng)且內(nèi)容豐富的的故事。我們不能總是發(fā)表那些奇怪事物、縮減的能源和瀕危物種的故事。但我們可以努力改變。當(dāng)我們找對(duì)了方向,那將會(huì)不同凡響。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03