
如何使用大數(shù)據(jù)幫助抓捕罪犯
最近波士頓馬拉松賽恐怖襲擊的余波尚在,我偶然看到了FCW的一篇有趣的文章,它對政府機(jī)構(gòu)中部署的最新技術(shù)和IT技術(shù)趨勢進(jìn)行了深入分析。在之前的博客文章中,我曾多次提到“大數(shù)據(jù)”的使用比以往更加普及了。大數(shù)據(jù)可以簡單地定義成一種從大量的數(shù)據(jù)中集中整理出所需信息,并將其用于戰(zhàn)略和戰(zhàn)術(shù)行動的手段。實際上,看到大數(shù)據(jù)被用于幫助抓捕罪犯并不稀奇,原因很簡單,在當(dāng)今這個反恐時代,“防火墻之后”的事件幾乎與實際犯罪現(xiàn)場發(fā)生的事件同樣重要。
從根本上說,大家所看到的FBI調(diào)查只是大數(shù)據(jù)和數(shù)據(jù)分析實踐的冰山一角,這只不過是萬里長征的第一步。以下是這篇文章的幾條要點。
在4月15日的波士頓馬拉松賽中,兩場爆炸造成了3人死亡和數(shù)十人受傷,這之后不到24小時FBI就編譯了10TB的數(shù)據(jù),希望通過大海撈針的方式找出嫌疑人的蛛絲馬跡。
FBI主導(dǎo)的這一調(diào)查對海量的手機(jī)基站日志、短信、社交媒體數(shù)據(jù)、照片和視頻監(jiān)控錄像進(jìn)行了分析,希望快速找出嫌疑人。
調(diào)查使用了面部識別軟件將照片和視頻上的面孔與護(hù)照、簽證、駕照和其它數(shù)據(jù)上的照片進(jìn)行對比。
調(diào)查人員收集的10TB數(shù)據(jù)不過是滄海一粟(聯(lián)邦政府通常處理的是PB級的數(shù)據(jù)),調(diào)查工作實際上進(jìn)行了大量的數(shù)據(jù)削減,主要原因是數(shù)據(jù)量過大,數(shù)據(jù)介質(zhì)類型龐雜,要處理的數(shù)據(jù)的整體復(fù)雜度過高,以及分析數(shù)據(jù)能夠利用的時間很有限。
處理TB級數(shù)據(jù)或更多的視頻、數(shù)字圖像、文字信息和手機(jī)記錄就已經(jīng)十分復(fù)雜了。不難想象,如果再把社交媒體加入進(jìn)來這會是一個多么漫無邊際、深不見底的泥潭。我發(fā)現(xiàn)這篇文章中最有意思的一點是,調(diào)查公司借助一家名為Topsy的公司的服務(wù)對數(shù)十億條tweet進(jìn)行了篩選。Topsy保存有2010年7月以來的所有tweet,在恐怖分子調(diào)查中,這使調(diào)查人員能夠?qū)εc波士頓相關(guān)的tweet進(jìn)行大數(shù)據(jù)分析,而不必去分析上千億條過去和現(xiàn)在的消息。Topsy的數(shù)據(jù)庫分析軟件使調(diào)查人員能夠用關(guān)鍵詞“bomb”(炸彈)搜索特定區(qū)域(包括波士頓以及鄰近郊區(qū))Twitter上的所有評述。
最終,這種細(xì)致搜索從兩個嫌疑人的Twitter賬戶上檢查出了包含“bomb”的內(nèi)容。這種對公共記錄的搜索很可能發(fā)現(xiàn)其它一些事實上不利于調(diào)查的線索,包括有些用戶轉(zhuǎn)發(fā)了提到炸彈的信息,或者參與了作為嫌疑人定罪證據(jù)的聊天等等。此外,Topsy的“地理位置推測”(
Geo-inferencing)技術(shù)也使調(diào)查人員能夠?qū)Πl(fā)出tweet信息的具體地點進(jìn)行準(zhǔn)確映射(考慮到僅有1%的Twitter用戶在發(fā)tweet時使用了地理位置標(biāo)簽,這項推測技術(shù)相當(dāng)了得)。據(jù)Topsy稱,這些功能比標(biāo)準(zhǔn)的Twitter位置數(shù)據(jù)的準(zhǔn)確度高20倍。
Emulex能夠“掌控”大數(shù)據(jù)
在Emulex,我們認(rèn)為解決大數(shù)據(jù)問題的核心在于企業(yè)網(wǎng)絡(luò)的框架。這里有大量的服務(wù)器進(jìn)行著平行處理來創(chuàng)造價值,這些服務(wù)器通過以太網(wǎng)和光纖通道協(xié)議相互通訊。因此,網(wǎng)絡(luò)流量的延時和吞吐速度是快速實現(xiàn)大數(shù)據(jù)部署的關(guān)鍵問題。Emulex之所以能夠解決這些延時問題,并獲得全球眾多企業(yè)的選用,是因為我們提供了能夠最大限度地擴(kuò)大數(shù)據(jù)集群的I/O解決方案,使大數(shù)據(jù)解決方案能夠?qū)崿F(xiàn)無縫部署。
不幸的是,在一些變態(tài)狂的影響下,我們的世界充滿著動蕩、恐懼,甚至是屠殺。但是同樣讓我們難以忘懷的是,我們的社會仍能在需要的時候展現(xiàn)出巨大的仁慈和愛心,正像波士頓的公民在這次恐怖襲擊之后所展現(xiàn)出來的。盡管大數(shù)據(jù)為調(diào)查提供了重要幫助,但我們不要忘記最終還是一位公民提供的線索把調(diào)查人員引向了兩名兇犯。歸根結(jié)底,沒有任何技術(shù)——無論其多么先進(jìn)——能夠取代人類的善良和不屈不撓的意志。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10