
從LBS大數(shù)據(jù)背后分析外灘踩踏事故始末
上海外灘踩踏事故發(fā)生已經(jīng)過(guò)去了半個(gè)多月,痛定思痛,從普通民眾到專(zhuān)家教授,紛紛通過(guò)媒體對(duì)此事發(fā)表了自己的意見(jiàn),希望能找到事故的真正原因,避免悲劇再度發(fā)生。
百度研究院大數(shù)據(jù)實(shí)驗(yàn)室BDL(Big Data Lab),秉承“以數(shù)據(jù)說(shuō)話”的理念,基于百度數(shù)據(jù)與大數(shù)據(jù)智能分析技術(shù),嘗試對(duì)當(dāng)時(shí)的情況進(jìn)行數(shù)據(jù)化描述,希望可以給相關(guān)人士提供一些參考。
圖1標(biāo)明了南京東路地鐵站附近區(qū)域(左下藍(lán)框)、外灘源附近區(qū)域(右上藍(lán)框)、事發(fā)地陳毅廣場(chǎng)附近區(qū)域(右下黑框)和外灘區(qū)域(右側(cè)紅框)位置在2014年12月31日事發(fā)當(dāng)時(shí)的人群熱力圖。顏色越紅表示人群越密集,越藍(lán)表示越稀疏。下文將聚焦在三個(gè)問(wèn)題上進(jìn)行討論。
圖1 2014.12.31 事發(fā)時(shí)外灘區(qū)域人群熱力圖
一、當(dāng)時(shí)的人流量大到什么程度?事發(fā)當(dāng)時(shí)是否是當(dāng)晚人流量最大的時(shí)候?
通過(guò)大數(shù)據(jù)分析,我們可以看到:
1)如圖2所示,事發(fā)當(dāng)晚,外灘區(qū)域(包含陳毅廣場(chǎng))確實(shí)非常擁擠,人流量已經(jīng)達(dá)到了平時(shí)最高值的3倍多。
圖2 2014.12.29-2015.1.2外灘區(qū)域人流量趨勢(shì)
2)如圖3所示,31日當(dāng)晚20:30左右,南京東路地鐵站(紫線)也曾出現(xiàn)過(guò)一個(gè)人流高峰。而事發(fā)當(dāng)時(shí)(黑色虛線),并不是陳毅廣場(chǎng)(紅線)人流量最大的時(shí)候,其兩次人流量高峰出現(xiàn)在21點(diǎn)和24點(diǎn)。
圖3 2014.12.31-2015.1.1人流量趨勢(shì)圖
二、當(dāng)時(shí)人流的對(duì)沖到底是什么樣的程度
有專(zhuān)家表示人流對(duì)沖可能是踩踏的很大一個(gè)原因,利用大數(shù)據(jù)技術(shù)結(jié)合地圖定位信息,從歷史定位與軌跡數(shù)據(jù)里可以看到事發(fā)地的人流方向相對(duì)于其他節(jié)假日確實(shí)顯得更加復(fù)雜。我們用中秋節(jié)、國(guó)慶節(jié)以及跨年三個(gè)節(jié)日的數(shù)據(jù)進(jìn)行比較。
(1)中秋前夜 (2)國(guó)慶當(dāng)晚 (3)跨年當(dāng)晚
圖4 外灘和外灘源區(qū)域人群分布熱力圖(2小時(shí))
通過(guò)圖4的2小時(shí)人群分布熱力圖可以看出,三個(gè)節(jié)日當(dāng)晚人流量基本相當(dāng),不過(guò)分布不同。中秋節(jié)(圖4(1))和國(guó)慶(圖4(2))人群主要分布在外灘觀景大道和陳毅廣場(chǎng)附近,而在跨年當(dāng)天22點(diǎn)之后(圖4(3)),人群主要分布在中山東一路、陳毅廣場(chǎng)和外灘源附近。
(1)中秋前夜 (2)國(guó)慶當(dāng)晚 (3)跨年當(dāng)晚
圖5 外灘和外灘源區(qū)域人群流動(dòng)方向示意圖(部分采樣)
圖5采樣選取了部分人群,示意他們的運(yùn)動(dòng)方向。圖中,每個(gè)箭頭代表一名行人,箭頭的顏色及指向表示其前進(jìn)方向。圖5(3)可以看出,跨年當(dāng)晚人群從 南京東路流向陳毅廣場(chǎng),導(dǎo)致在晚上21點(diǎn)左右,陳毅廣場(chǎng)的人流量達(dá)到一個(gè)峰值(圖3)。而之后,更多的人群開(kāi)始從陳毅廣場(chǎng)沿著中山東一路流向北部的外灘 源,也就是事發(fā)當(dāng)天燈光秀所在地。
(1)中秋前夜 (2)國(guó)慶當(dāng)晚 (3)跨年當(dāng)晚
圖6 外灘區(qū)域人群流動(dòng)方向分布圖
我們進(jìn)一步對(duì)圖5中外灘區(qū)域的人流進(jìn)行量化分析,得到了圖6所示的人群流動(dòng)方向分布圖。圖6中每一扇形分區(qū)代表不同的人流方向,扇區(qū)半徑表示該方向 人流量大小。圖6(1-2)分別表示中秋和國(guó)慶當(dāng)晚的情況,可以看出,人流方向比較簡(jiǎn)單和清晰,即南北向人流較多,其他方向人流較少。圖6(3)顯示了跨 年當(dāng)晚的外灘區(qū)域的人流方向。除了南北雙向的人流,還有其他多個(gè)方向人流,人群流動(dòng)方向分布混亂。
針對(duì)產(chǎn)生復(fù)雜人群流動(dòng)方向的原因,有專(zhuān)家這樣推測(cè),中秋節(jié)、國(guó)慶節(jié)游客只是單純的外灘游覽;而在跨年當(dāng)晚,很多游客是為了去觀看燈光秀,但是到了陳 毅廣場(chǎng)后才發(fā)現(xiàn)燈光秀地點(diǎn)更改(往年都在陳毅廣場(chǎng),今年更改為外灘源)。從百度搜索關(guān)鍵詞分析里面也看到這一趨勢(shì)。當(dāng)晚23:20左右,搜索“燈光秀取消 了么”和“燈光秀門(mén)票”的關(guān)鍵詞的數(shù)量急劇增加(圖7)。
圖7 搜索“燈光秀取消了么”和“燈光秀門(mén)票”的關(guān)鍵詞指數(shù)
從手機(jī)地圖使用習(xí)慣來(lái)看,游客去目的地前,一般都會(huì)提前利用地圖搜索目的地和規(guī)劃路線,燈光秀地點(diǎn)在外灘源,那么用戶應(yīng)該會(huì)搜索“外灘源”并規(guī)劃路 徑。我們研究了當(dāng)晚游客到底在什么位置通過(guò)百度地圖搜索“外灘源”,發(fā)現(xiàn)大部分都集中在外灘附近(圖8中紅色區(qū)域),這從某種程度上就說(shuō)明用戶原本不知道 燈光秀更改為外灘源,到了外灘以后才發(fā)現(xiàn)改了地方,所以才掏出手機(jī)進(jìn)行地圖搜索。
圖8 以“外灘源”為目標(biāo)的地圖搜索發(fā)起點(diǎn)熱力圖
三、群體聚集是突發(fā)情況,可以預(yù)警嗎?
我國(guó)人口眾多,重大文體活動(dòng)、節(jié)假日集會(huì)等活動(dòng)中,容易出現(xiàn)因人群過(guò)度擁擠而引發(fā)的危險(xiǎn)乃至事故。那么是否可以提前預(yù)測(cè),做到事前預(yù)警呢?大數(shù)據(jù)實(shí)驗(yàn)室對(duì)百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行了深度挖掘,探索預(yù)警的可能性。
圖9 外灘地圖搜索與人群匯聚情況趨勢(shì)圖
圖9代表2014年12月25日至31日,外灘地圖搜索請(qǐng)求與人群匯聚情況的歷史趨勢(shì)。從兩條曲線經(jīng)過(guò)標(biāo)準(zhǔn)化和對(duì)齊后的走勢(shì)中,我們不難看出他們基本一致的漲落趨勢(shì)。平時(shí),外灘的地圖搜索和人群匯聚程度基本穩(wěn)定,但在2014年的最后一天,兩者都達(dá)到了最高峰。
圖10 外灘地圖搜索請(qǐng)求與人員到達(dá)數(shù)量相關(guān)性分析
通過(guò)對(duì)百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘。進(jìn)一步對(duì)2014年12月31日的地圖搜索請(qǐng)求與人員到達(dá)數(shù)量進(jìn)行相關(guān)性分析。由圖10得到,在百度地圖 中,相關(guān)地點(diǎn)的請(qǐng)求數(shù)據(jù)和實(shí)際到達(dá)該地點(diǎn)人群數(shù)量具有極高的相關(guān)性,相關(guān)系數(shù)超過(guò)0.9(越接近1,說(shuō)明越相關(guān))。這表明,用戶去目的地前,一般都會(huì)提前 利用百度地圖搜索地點(diǎn)和規(guī)劃路線。為了挖掘用戶的時(shí)間提前量,包括外灘跨年時(shí)的數(shù)據(jù),大數(shù)據(jù)實(shí)驗(yàn)室又對(duì)大量歷史群體聚集場(chǎng)合的數(shù)據(jù)進(jìn)行進(jìn)一步的分析,包括 鳥(niǎo)巢足球賽等。
圖11 外灘地圖搜索與人群數(shù)量的互相關(guān)性曲線
通過(guò)對(duì)大量歷史數(shù)據(jù)分析發(fā)現(xiàn),相關(guān)地點(diǎn)的地圖搜索請(qǐng)求峰值會(huì)早于人群密度高峰幾十分鐘出現(xiàn)(可參見(jiàn)圖9)。在圖11中我們給出了搜索量和人群數(shù)量之 間的互相關(guān)性相對(duì)于時(shí)延的變化曲線,其中X軸的值為時(shí)延量,負(fù)值即表示提前量,例如-10對(duì)上去曲線的值,就是提前10小時(shí)的搜索量與人群數(shù)量的相關(guān)性。 圖中可以發(fā)現(xiàn),兩個(gè)量的互相關(guān)性曲線在-1.5小時(shí)的時(shí)候達(dá)到了峰值,這意味著,根據(jù)地圖上相關(guān)地點(diǎn)搜索的請(qǐng)求量,我們至少可能提前幾十分鐘預(yù)測(cè)出人流量 峰值的到來(lái)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11