
近年來,隨著感知技術(shù)和計(jì)算環(huán)境的成熟,各種大數(shù)據(jù)在城市中悄然而生。城市計(jì)算就是用城市中的大數(shù)據(jù)來解決城市本身所面臨的挑戰(zhàn),通過對(duì)多種異構(gòu)數(shù)據(jù)的整合、分析和挖掘,來提取知識(shí)和智能,并用智能來創(chuàng)造“人—環(huán)境—城市”三贏的結(jié)果。微軟亞洲研究院主管研究員鄭宇從城市計(jì)算的基本框架及核心問題、典型應(yīng)用、主要技術(shù)等方面對(duì)城市計(jì)算研究進(jìn)行了全面而詳細(xì)的分析,讓我們一睹為快!
基本框架
城市計(jì)算的基本框架包括城市感知及數(shù)據(jù)捕獲、數(shù)據(jù)管理、城市數(shù)據(jù)分析和服務(wù)提供(如圖1)。與自然語言分析和圖像處理等“單數(shù)據(jù)單任務(wù)”系統(tǒng)相比,城市計(jì)算是一個(gè)“多數(shù)據(jù)多任務(wù)”系統(tǒng)。城市計(jì)算中的任務(wù)包括改進(jìn)城市規(guī)劃、緩解交通擁堵、保護(hù)自然環(huán)境、減少能源消耗等。而一個(gè)任務(wù)又需要同時(shí)用到多種數(shù)據(jù)。例如,在城市規(guī)劃的設(shè)計(jì)過程中,需要同時(shí)參考道路結(jié)構(gòu)、興趣點(diǎn)分布、交通流等多種數(shù)據(jù)源。
核心問題
城市計(jì)算是一門新興的交叉領(lǐng)域,涵蓋面較廣。從計(jì)算機(jī)科學(xué)的角度來看,其核心的研究問題主要包括以下4 個(gè)方面:
城市感知
如何利用城市現(xiàn)有的資源(如手機(jī)、傳感器、車輛和人等),在不干擾人們生活的前提下自動(dòng)感知城市的韻律,是一個(gè)重要的研究課題。如何從大量的傳感器和設(shè)備中高效而可靠地收集、傳送數(shù)據(jù)將給現(xiàn)有的傳感器網(wǎng)絡(luò)技術(shù)帶來挑戰(zhàn)。此外,人作為傳感器參與到城市感知過程是一個(gè)新概念。例如,當(dāng)一場(chǎng)災(zāi)難發(fā)生后,有些用戶會(huì)在社交網(wǎng)絡(luò)上發(fā)布消息或上傳照片。這些用戶其實(shí)就是在感知發(fā)生在他們身邊的事情。用戶在出入地鐵站時(shí)的刷卡行為也間接幫助我們感知了地鐵系統(tǒng)的擁擠和人們的出行。人賦予了傳統(tǒng)傳感器強(qiáng)大的感知能力和前所未有的靈活性,但產(chǎn)生的數(shù)據(jù)更加隨機(jī)、無序(如微博上的文字),數(shù)據(jù)的產(chǎn)生時(shí)間也變得難以預(yù)測(cè)、不可控,這給數(shù)據(jù)的收集和解析帶來了挑戰(zhàn)。
海量異構(gòu)數(shù)據(jù)的管理
城市產(chǎn)生的數(shù)據(jù)五花八門,屬性差別很大。例如:氣象是時(shí)序數(shù)據(jù),興趣點(diǎn)是空間點(diǎn)數(shù)據(jù),道路是空間圖數(shù)據(jù),人的移動(dòng)是軌跡數(shù)據(jù)(時(shí)間+ 空間),交通流量是流數(shù)據(jù),社交網(wǎng)上用戶發(fā)布的信息是文本或圖像數(shù)據(jù)。如何管理和整合大規(guī)模的異構(gòu)數(shù)據(jù)是一個(gè)新的挑戰(zhàn)。尤其是在一個(gè)應(yīng)用中使用多種數(shù)據(jù)時(shí),只有提前建立起不同數(shù)據(jù)之間的關(guān)聯(lián),才能使后面的分析和挖掘過程變得高效、可行。
異構(gòu)數(shù)據(jù)的協(xié)同計(jì)算
這部分包括三個(gè)方面:(1) 如何從不同的數(shù)據(jù)源中獲取相互增強(qiáng)的知識(shí)是一個(gè)新的課題。傳統(tǒng)的機(jī)器學(xué)習(xí)往往基于單一數(shù)據(jù),如自然語言處理主要分析文本數(shù)據(jù),圖像視覺主要基于圖像數(shù)據(jù)。在城市計(jì)算的很多應(yīng)用中,對(duì)不同性質(zhì)的數(shù)據(jù)一視同仁,其效果并不理想。(2) 在保證知識(shí)提取深度的同時(shí),如何提高對(duì)大數(shù)據(jù)的分析效率,從而滿足城市計(jì)算中眾多實(shí)時(shí)性要求較高的應(yīng)用(如空氣質(zhì)量預(yù)測(cè)、異常事件監(jiān)測(cè)等),也是一個(gè)難題。(3) 數(shù)據(jù)維度的增加也容易導(dǎo)致數(shù)據(jù)稀疏性問題。當(dāng)數(shù)據(jù)規(guī)模達(dá)到一定程度,簡(jiǎn)單的矩陣分解算法都變得難以執(zhí)行。
虛實(shí)結(jié)合的混合式系統(tǒng)
城市計(jì)算常常催生混合系統(tǒng),如云加端模式,即信息產(chǎn)生在物理世界,通過終端設(shè)備被收集到云端(虛擬世界)分析和處理,最后云再將提取的知識(shí)作為服務(wù)提供給物理世界的終端用戶。數(shù)據(jù)在物理和虛擬世界中來回穿行,從分散到集中,再到分散。這對(duì)系統(tǒng)的設(shè)計(jì)和搭建提出了更高的要求。基于浮動(dòng)車數(shù)據(jù)的快速行車路線設(shè)計(jì)以及城市異常事件的監(jiān)測(cè)都是典型的混合式系統(tǒng)。
城市規(guī)劃
城市擁堵在一定程度上突顯了現(xiàn)有道路網(wǎng)的設(shè)計(jì)已經(jīng)不能滿足不斷發(fā)展的城市交通流的需求。如圖2(a) 所示,利用高速和環(huán)路等主干道將城市分割成區(qū)域,然后分析大規(guī)模車流軌跡數(shù)據(jù)在不同區(qū)域之間行駛的一些特征,便可找到連通性較差的區(qū)域?qū)Γ瑥亩l(fā)掘現(xiàn)有城市道路網(wǎng)的不足之處。圖2(b) 給出了基于北京市3 萬多輛出租車3 個(gè)月軌跡數(shù)據(jù)的分析結(jié)果。這些結(jié)果可以作為制定下一版交通規(guī)劃的參考。同時(shí),通過對(duì)比連續(xù)兩年的檢測(cè)結(jié)果,可以驗(yàn)證一些已經(jīng)實(shí)施的規(guī)劃(如新建道路和地鐵)是否合理。
城市的不斷發(fā)展催生了不同的功能區(qū)域,如文教、商業(yè)和住宅區(qū)等。準(zhǔn)確掌握這些區(qū)域的分布對(duì)制定合理的城市規(guī)劃有著極其重要的意義。但是一個(gè)區(qū)域的功能并不是單一的,例如在科學(xué)文教區(qū)里仍然有飯店和商業(yè)設(shè)施的存在。因此,一個(gè)區(qū)域需要由一個(gè)功能的分布來表達(dá)(如70%的功能為商業(yè),20% 的功能為住宅,剩余的為教育)。由于一個(gè)區(qū)域雜糅了很多不同類別的興趣點(diǎn),而且每個(gè)興趣點(diǎn)的作用大小和被訪問頻度都很難預(yù)知,這給城市規(guī)劃提出了很大的挑戰(zhàn)。例如,同樣都是餐館,一個(gè)小區(qū)里的小店和全聚德之類的大店所反映的區(qū)域功能是完全不一樣的。
結(jié)合興趣點(diǎn)數(shù)據(jù)和人們的移動(dòng)模式,Discovering regions of different functions in a city using human mobility and POIs分析了城市中不同的功能區(qū)域。如圖3(a) 所示,相同顏色的區(qū)域具有相同的功能分布(如紅色區(qū)域主要為科學(xué)文教區(qū))。圖中所采用的人的移動(dòng)性數(shù)據(jù)是從出租車的軌跡數(shù)據(jù)中提取出來的,該軌跡數(shù)據(jù)包含乘客上車和下車地點(diǎn)的信息。人的移動(dòng)性數(shù)據(jù)可以很好地區(qū)分相同類別的興趣點(diǎn)的熱度,也可以揭示一個(gè)區(qū)域的功能。例如有一個(gè)區(qū)域,大部分人都是上午8 點(diǎn)左右離開,晚上7 點(diǎn)返回,則這個(gè)區(qū)域很可能是住宅區(qū)。一個(gè)區(qū)域的主要功能是文教,但也不代表該區(qū)域的任何一個(gè)地點(diǎn)都服務(wù)于文教。因此,給定一種功能,我們希望知道它的核心區(qū)域所在。圖3(b) 顯示了成熟商業(yè)區(qū)的核心區(qū)域,顏色越深表示該區(qū)域是成熟商業(yè)區(qū)的概率越大。
智能交通
T-Drive 系統(tǒng)利用裝有GPS 傳感器的出租車來感知交通流量,并為普通用戶設(shè)計(jì)出真正意義上的最快駕車線路。如圖4 所示,T-Drive 提出了一個(gè)基于地標(biāo)圖的路由算法,其中一個(gè)紅點(diǎn)表示出租車司機(jī)走過最頻繁的路段之一(稱為一個(gè)地標(biāo)),紅點(diǎn)之間的連線表示連接兩個(gè)地標(biāo)點(diǎn)的一條虛擬邊,代表連續(xù)經(jīng)過這兩個(gè)地標(biāo)點(diǎn)的出租車軌跡的聚合。根據(jù)出租車軌跡數(shù)據(jù),可以學(xué)習(xí)出任何一條虛擬邊的通行時(shí)間。T-Drive 的改進(jìn)版進(jìn)一步考慮了天氣及個(gè)人駕車習(xí)慣、技能和道路熟悉程度等因素,提出了針對(duì)個(gè)人的個(gè)性化最快線路設(shè)計(jì)。這個(gè)系統(tǒng)不僅可以為每30 分鐘的駕車路程節(jié)約5分鐘時(shí)間,還可以通過讓不同用戶選擇不同的道路來緩解可能出現(xiàn)的擁堵。
打車難是很多大城市面臨的一個(gè)問題。通過分析出租車乘客的上下車記錄,T-Finder提供了一個(gè)面向司機(jī)和乘客的雙向推薦服務(wù)。一方面,這個(gè)系統(tǒng)向出租車司機(jī)建議一些“趴活”地點(diǎn)。只要向這些地點(diǎn)行駛,司機(jī)將在最短的時(shí)間內(nèi)(在路上或者推薦地點(diǎn))拉到乘客,并且使收入最大化。另一方面,如圖5(a) 所示,該系統(tǒng)向乘客推薦一些周邊的路段,在這些路段上尋找到空車的概率更高(不同顏色表示不同概率,藍(lán)色最高,紅色最低)。同時(shí),T-Finder 還可以預(yù)測(cè)周邊的一些出租車??空驹谖磥戆胄r(shí)內(nèi)將駛?cè)氲目哲嚁?shù)目。T-Finder通過推薦能夠緩解非高峰時(shí)段的打車難問題,但該系統(tǒng)并不能真正解決高峰時(shí)段的問題。T-Share則通過出租車實(shí)時(shí)動(dòng)態(tài)拼車的方案來解決這一難題。在T-Share系統(tǒng)里,用戶通過手機(jī)提交打車請(qǐng)求,表明上下車地點(diǎn)、乘客人數(shù)和期望到達(dá)目的地的時(shí)間。后臺(tái)系統(tǒng)實(shí)時(shí)維護(hù)所有出租車的狀態(tài),在接收到一個(gè)用戶請(qǐng)求后,搜索出滿足新用戶條件和車上已有乘客條件的最優(yōu)的車。這里的最優(yōu)是指出租車去接一個(gè)新的用戶所增加的里程最小。如圖5(b)所示,該出租車被規(guī)劃為先后接 u1 和 u2,放下 u1 接 u3,再放 u2 ,然后放 u3(+ 表示上車,- 表示下車)。根據(jù)仿真結(jié)果顯示,TShare系統(tǒng)一年可以為北京市節(jié)約8 億升汽油(可供100 萬輛車開10 個(gè)月,價(jià)值10 億元人民幣,并減排二氧化碳 16 億千克),乘客能打到車的概率提高3 倍,但費(fèi)用降低7%,出租車司機(jī)的收入增加10%。
圖5 城市計(jì)算中的出租車解決方案
還有一些研究工作,利用乘客在地鐵系統(tǒng)中的刷卡數(shù)據(jù)來估計(jì)單個(gè)地鐵站點(diǎn)內(nèi)的擁擠程度和不同站點(diǎn)間的通行時(shí)間,從而優(yōu)化人們的出行線路、時(shí)間和購票方式的選擇。還有人通過分析出租車的軌跡數(shù)據(jù)來建議開通公交線路。如果有大量的人通過打出租車從一個(gè)地點(diǎn)到另一個(gè)地點(diǎn),則說明這兩個(gè)地點(diǎn)需要公交線路來連通。
環(huán)境
空氣質(zhì)量信息對(duì)控制污染和保護(hù)人們身體健康有著重要的意義。很多城市都開始通過建設(shè)地面空氣監(jiān)測(cè)站來實(shí)時(shí)感知地面的空氣質(zhì)量。但是由于監(jiān)測(cè)站的建設(shè)成本高昂,一個(gè)城市的站點(diǎn)有限,并不能完全覆蓋整個(gè)城市。如圖6(a) 所示,北京城區(qū)僅有22 個(gè)空氣監(jiān)測(cè)站點(diǎn)(平均約100平方公里設(shè)一個(gè)站點(diǎn))。然而空氣質(zhì)量受多方面因素影響(如地表植被、交通流量、樓房密度等),而且隨地域不均勻變化。如果一個(gè)區(qū)域沒有監(jiān)測(cè)站,我們并不知道該地區(qū)空氣質(zhì)量的好壞,更不能用一個(gè)籠統(tǒng)的數(shù)據(jù)來概括整個(gè)城市的空氣狀況。
利用群體感知是解決這個(gè)問題的一種方式。例如,“哥本哈根車輪”項(xiàng)目在自行車車輪里安裝一些傳感器,通過用戶手機(jī)將收集的數(shù)據(jù)發(fā)送至后臺(tái)服務(wù)器。依靠群體的力量,我們就可以感知整個(gè)城市不同角落的溫度、濕度和二氧化碳濃度。由于受傳感器大小和感知時(shí)間的限制,這種方式只適用于部分氣體,如一氧化碳和二氧化碳。由于傳感器體積較大,不便于攜帶,對(duì)于細(xì)顆粒物(PM2.5) 這樣的懸浮物則需要2~4 小時(shí)的測(cè)量時(shí)間才能產(chǎn)生較為精確的數(shù)據(jù)。
U-Air 利用地面監(jiān)測(cè)站有限的空氣質(zhì)量數(shù)據(jù),結(jié)合交通流、道路結(jié)構(gòu)、興趣點(diǎn)分布、氣象條件和人們流動(dòng)規(guī)律等大數(shù)據(jù),基于機(jī)器學(xué)習(xí)算法建立數(shù)據(jù)和空氣質(zhì)量的映射關(guān)系,從而推斷出整個(gè)城市細(xì)粒度的空氣質(zhì)量。圖6(b) 顯示了北京某時(shí)刻的細(xì)粒度空氣質(zhì)量(其中不同顏色表示不同污染指數(shù),綠色為優(yōu))。
社交和娛樂
社交網(wǎng)絡(luò)的盛行,尤其是基于位置的社交網(wǎng)絡(luò)的風(fēng)靡,帶來了豐富的媒體數(shù)據(jù),如用戶關(guān)系圖、位置信息(簽到和軌跡)、照片和視頻等。這些數(shù)據(jù)不僅表現(xiàn)了個(gè)人的喜好和習(xí)慣,也反映了整個(gè)城市人們的生活方式和移動(dòng)規(guī)律?;谶@些數(shù)據(jù),產(chǎn)生了很多推薦系統(tǒng),包括朋友推薦、社區(qū)推薦、地點(diǎn)推薦、旅行線路推薦和行為活動(dòng)推薦。文獻(xiàn)A survey on recommendations in location-based social networks 綜述了基于位置的社交網(wǎng)絡(luò)中的各種推薦系統(tǒng)。
城市計(jì)算中的社交應(yīng)用更加強(qiáng)調(diào)從大量用戶的社交媒體數(shù)據(jù)中提煉出群體智慧。人作為一個(gè)重要的感知和計(jì)算單元參與到計(jì)算的過程中是城市的重要特點(diǎn)之一。例如,一個(gè)用戶的簽到或者帶有地標(biāo)的照片數(shù)據(jù)都可被看成是不確定的軌跡,原因在于用戶不會(huì)不停地簽到或拍照。在得到這樣一條軌跡數(shù)據(jù)時(shí),我們無法判斷出該用戶選擇的具體線路,如圖7(a)。但是,當(dāng)我們把很多個(gè)用戶的不確定線路疊加到一起,就能猜測(cè)出最有可能的線路,如圖7(b),即“不確定+ 不確定→確定”。這樣的應(yīng)用可以幫助人們規(guī)劃旅行線路。例如,一個(gè)用戶想在一條線路中去后海、天壇和頤和園3 個(gè)地方,把這3 個(gè)點(diǎn)輸入到系統(tǒng)里,可以根據(jù)大眾的簽到數(shù)據(jù)計(jì)算出一條最熱門的游玩路線。
社交媒體數(shù)據(jù)同時(shí)也向城市計(jì)算的其他方面貢獻(xiàn)著力量。例如,通過網(wǎng)民在社交網(wǎng)絡(luò)中發(fā)布的信息來預(yù)測(cè)總統(tǒng)選舉結(jié)果、疾病蔓延和房?jī)r(jià)走勢(shì),發(fā)現(xiàn)異常事件和災(zāi)難,分析交通流量,設(shè)計(jì)廣告推送和商業(yè)選址。通過社交媒體還能分析一個(gè)城市的風(fēng)格以及不同城市之間的相似性。
能源消耗
文獻(xiàn)Sensing the pulse of urban refueling behavior利用裝有GPS 的出租車在加油站的等待時(shí)間來估計(jì)加油站的排隊(duì)長(zhǎng)度,估算出此時(shí)加油站內(nèi)的車輛數(shù)目及加油量。通過將全城的加油站數(shù)據(jù)匯總,便可計(jì)算出任意時(shí)刻消耗掉(加入到汽車油箱里)的燃油數(shù)。這些數(shù)據(jù)能實(shí)現(xiàn)三方面的應(yīng)用:第一,給需要加油的用戶提供推薦信息,尋找排隊(duì)時(shí)間最短的加油站;第二,可讓加油站運(yùn)營(yíng)商知道各個(gè)地區(qū)的加油需求,從而考慮增加新的站點(diǎn)或動(dòng)態(tài)調(diào)整某些加油站的工作時(shí)間;第三,政府可以實(shí)時(shí)掌握整個(gè)城市的油耗,制定更為合理的能源戰(zhàn)略,如圖8 所示。
文獻(xiàn)Coordinated clustering algorithms to support charging infrastructure design for electric vehicles通過分析人口數(shù)據(jù)、車輛的軌跡數(shù)據(jù)、各地區(qū)能源消耗情況和興趣點(diǎn)的分布來研究未來新能源汽車的充電站建在何處最優(yōu)。也有不少工作通過分析汽車內(nèi)部的傳感器數(shù)據(jù)(如踩油門、剎車的時(shí)間和次數(shù)等)來建議經(jīng)濟(jì)省油的開車方式。
經(jīng)濟(jì)
城市經(jīng)濟(jì)是一個(gè)相對(duì)成熟的研究領(lǐng)域。例如,分析決定土地價(jià)格的因素、土地使用限制對(duì)經(jīng)濟(jì)的影響,公司選址和人們選擇住宅的位置對(duì)周邊未來經(jīng)濟(jì)的影響等。
文獻(xiàn)Geo-spotting: mining online location-based services for optimal retail store placement通過分析大量用戶的簽到數(shù)據(jù)為商業(yè)選址提供位置建議。比如,要開設(shè)一個(gè)新的麥當(dāng)勞餐廳,什么地方是最理想的位置。結(jié)合道路結(jié)構(gòu)、興趣點(diǎn)分布、人口流動(dòng)等諸多因素來對(duì)屋的價(jià)值排序。即在市場(chǎng)向好時(shí),哪些小區(qū)的房?jī)r(jià)將會(huì)漲得更多;市場(chǎng)下行時(shí),哪些小區(qū)的房?jī)r(jià)比較抗跌。與使用傳統(tǒng)經(jīng)濟(jì)學(xué)模型不同,以上這兩個(gè)例子采用了機(jī)器學(xué)習(xí)算法和數(shù)據(jù)驅(qū)動(dòng)的方法。
城市安全和應(yīng)急響應(yīng)
城市中總是會(huì)有一些突發(fā)事件,如自然災(zāi)害(地震和洪水等)、大型賽事和商業(yè)促銷、交通事故和臨時(shí)管制、群體性事件等。如果能及時(shí)感知、甚至預(yù)警這些事情,將能極大地改善城市管理,提高政府對(duì)突發(fā)事件的應(yīng)對(duì)能力,保障城市安全,減少損失和悲劇的發(fā)生。
Discovering spatio-temporal causal interactions in traffic data streams、On mining anomalous patterns in road traffic streams、On detection of emerging anomalous traffic patterns using GPS data通過分析北京3 萬多輛出租車的軌跡來發(fā)現(xiàn)城市中的異常事件。其主要思想是當(dāng)異常事件發(fā)生時(shí),附近的交通流將出現(xiàn)一定程度的紊亂。文獻(xiàn)Inferring the root cause in road traffic anomalies 試圖用具體的交通線路來進(jìn)一步解釋異常出現(xiàn)的原因。如圖9所示,L1 連通的兩個(gè)區(qū)域之間出現(xiàn)了交通流異常,但問題本身可能并不在這兩個(gè)區(qū)域。其原因在于天安門附近因馬拉松比賽而導(dǎo)致了交通管制,之前通過紫色虛線出行的車流就不得不繞道到綠色分段線的線路。所以綠色的線路才是產(chǎn)生這次異常的原因。根據(jù)司機(jī)選擇路線的改變來捕捉交通異常,并進(jìn)一步從相關(guān)的微博中提取關(guān)鍵詞來解釋異常的原因,如婚博會(huì)、道路坍塌等。
圖9 分析交通異常
Modelingand probabilistic reasoning of population evacuation during large-scale disaster通過分析160 萬日本人一年的GPS 移動(dòng)軌跡數(shù)據(jù)庫來對(duì)日本大地震和福島核事故發(fā)生后的災(zāi)民移動(dòng)、避難行為進(jìn)行建模、預(yù)測(cè)和模擬。這樣日后再有類似事件發(fā)生時(shí),便可從之前的災(zāi)難中吸取經(jīng)驗(yàn),提前做好準(zhǔn)備。例如,為人們推薦合理的撤退線路。
傳感器技術(shù)
傳感器網(wǎng)絡(luò)
實(shí)現(xiàn)現(xiàn)有專業(yè)傳感器(如溫度傳感器、位置傳感器、交通流線圈、空氣質(zhì)量監(jiān)測(cè)儀等)之間的互聯(lián)互通,完成數(shù)據(jù)的快速收集。
主動(dòng)參與式感知
用戶通過主動(dòng)分享自己獲取的數(shù)據(jù)來共同完成一個(gè)復(fù)雜的任務(wù)。例如,每個(gè)用戶都利用手機(jī)上的傳感器來分享自己周邊的氣溫和濕度,從而構(gòu)建出全城細(xì)粒度的氣象信息。
被動(dòng)群體感知
城市里各種信息基礎(chǔ)設(shè)施(如蜂窩移動(dòng)通信系統(tǒng)和公交卡系統(tǒng))為城市計(jì)算提供了良好的感知平臺(tái)。這些基礎(chǔ)設(shè)施可能并不是專門為城市計(jì)算設(shè)立的,但當(dāng)用戶在使用這些基礎(chǔ)設(shè)施時(shí)會(huì)產(chǎn)生大量的數(shù)據(jù),將這些數(shù)據(jù)融合到一起能很好地反映城市的韻律。例如,通過分析大量用戶的地鐵刷卡數(shù)據(jù)就能掌握城市的人口流動(dòng)規(guī)律。通過分析大規(guī)模的出租車軌跡數(shù)據(jù)就能感知城市路面的交通流。與主動(dòng)參與式感知技術(shù)不同,被動(dòng)式群體感知中的用戶并不知道自己的數(shù)據(jù)將作何使用,甚至不知道自己在產(chǎn)生數(shù)據(jù)。
數(shù)據(jù)管理技術(shù)
流數(shù)據(jù)管理
由于大量的傳感器數(shù)據(jù)都以流的形式輸入,高效的流數(shù)據(jù)庫技術(shù)是城市計(jì)算數(shù)據(jù)管理層的基石。
軌跡管理
交通流、人的移動(dòng)以及帶位置標(biāo)簽的社交媒體都可以表示為軌跡數(shù)據(jù)(即帶有時(shí)間戳并按時(shí)間排序的點(diǎn)序列)。在城市計(jì)算中經(jīng)常會(huì)用到軌跡處理技術(shù),如地圖匹配算法、軌跡壓縮、軌跡搜索、軌跡頻繁模式挖掘等。
圖數(shù)據(jù)管理
社交網(wǎng)絡(luò)中人的關(guān)系、不同地區(qū)之間的人口流動(dòng)、道路上的交通流等等都可表達(dá)為圖模型。因此,圖數(shù)據(jù)的管理和模式發(fā)現(xiàn)技術(shù)尤為重要。城市計(jì)算的應(yīng)用中更多會(huì)用到帶有時(shí)空屬性的圖模型,即每個(gè)節(jié)點(diǎn)都有空間坐標(biāo)信息,圖中邊和點(diǎn)的屬性(甚至圖結(jié)構(gòu))會(huì)隨時(shí)間而變化。前文提到的最快行車路線設(shè)計(jì)、查找路網(wǎng)中不合理規(guī)劃、發(fā)現(xiàn)城市不同的功能區(qū)域以及交通流異常檢測(cè)都是以帶有時(shí)空屬性的圖為研究模型。
時(shí)空索引
有效的索引可以大大提高數(shù)據(jù)提取的效率。由于空間和時(shí)間是城市計(jì)算中最常用的兩個(gè)數(shù)據(jù)維度,各種空間索引和時(shí)空索引都是常用技術(shù)。更重要的是利用時(shí)空索引技術(shù)將不同種類的數(shù)據(jù)(如文本、車流等)關(guān)聯(lián)和組織起來,為之后的高效數(shù)據(jù)挖掘和分析做好準(zhǔn)備。
數(shù)據(jù)挖掘技術(shù)
用于城市計(jì)算的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法比較多。各種模式發(fā)現(xiàn)、統(tǒng)計(jì)學(xué)習(xí)和人工智能方法都可以應(yīng)用到該領(lǐng)域。但在挑選這些技術(shù)時(shí)需要考慮以下兩個(gè)因素:
能從異構(gòu)數(shù)據(jù)中學(xué)習(xí)到相互增強(qiáng)的知識(shí)
通常有3 種方法來實(shí)現(xiàn)這個(gè)目標(biāo):(1) 分別從不同數(shù)據(jù)中提取特征,然后簡(jiǎn)單地將這些特征直接拼接并歸一化到一個(gè)特征向量里,輸入到機(jī)器學(xué)習(xí)的模型中。由于不區(qū)分不同數(shù)據(jù)的特性,因此這種方法并不是最有效的。(2) 在計(jì)算模型的不同階段先后使用不同數(shù)據(jù)。例如,文獻(xiàn)Urban computing with taxicabs先用道路數(shù)據(jù)將城市分割成很多區(qū)域,然后再將軌跡數(shù)據(jù)映射到這些區(qū)域上構(gòu)建圖,最后通過分析圖模型來找出不合理的道路規(guī)劃。(3) 將不同的數(shù)據(jù)分別輸入到同一個(gè)計(jì)算模型的不同部分。如文獻(xiàn)Discovering regions of different functions in a city using human mobility and POIs將人的移動(dòng)性數(shù)據(jù)和興趣點(diǎn)數(shù)據(jù)分別輸入到一個(gè)主題模型的兩個(gè)不同部分來分析城市的不同功能區(qū)域。文獻(xiàn)U-Air: when urban air quality inference meets big data將交通流、人的移動(dòng)性和氣象數(shù)據(jù)等時(shí)變信息輸入到一個(gè)隨機(jī)條件場(chǎng)conditional random fields, CRF) 來模擬一個(gè)地點(diǎn)空氣的時(shí)序相關(guān)性,將道路結(jié)構(gòu)、興趣點(diǎn)分布等空間(非時(shí)變)信息輸入到神經(jīng)網(wǎng)絡(luò)中來模擬不同區(qū)域間空氣質(zhì)量的相關(guān)性。然后,這兩個(gè)模型在半監(jiān)督學(xué)習(xí)的框架里相互迭代、增強(qiáng),共同推斷出一個(gè)地點(diǎn)的空氣質(zhì)量。如果只是簡(jiǎn)單將所有數(shù)據(jù)輸入到一個(gè)分類器中,由于那些空間數(shù)據(jù)不隨時(shí)間變化,會(huì)被忽略,因此預(yù)測(cè)效果并不好。
應(yīng)對(duì)數(shù)據(jù)的稀疏性
大數(shù)據(jù)與數(shù)據(jù)的稀疏性并不矛盾。以預(yù)測(cè)城市的細(xì)粒度空氣為例,我們能觀測(cè)到的交通流、人流、道路和興趣點(diǎn)數(shù)據(jù)都是大數(shù)據(jù),由于只有有限的監(jiān)測(cè)站能產(chǎn)生空氣質(zhì)量的讀數(shù),因此,訓(xùn)練數(shù)據(jù)很稀疏。另外一個(gè)例子是利用出租車來估計(jì)城市的燃油消耗。出租車的GPS 軌跡數(shù)據(jù)巨大,但某些時(shí)刻有相當(dāng)一部分加油站并沒有出租車出入。如何估計(jì)這些站點(diǎn)的油耗,也是一個(gè)應(yīng)對(duì)數(shù)據(jù)稀疏性的問題。解決這一問題通??刹捎靡韵? 種方法:(1) 使用半監(jiān)督學(xué)習(xí)算法或轉(zhuǎn)移學(xué)習(xí)算法。如文獻(xiàn)使用半監(jiān)督學(xué)習(xí)算法來彌補(bǔ)因空氣監(jiān)測(cè)站少而帶來的訓(xùn)練樣本稀疏性問題。(2)采用矩陣分解算法和協(xié)同過濾。城市油耗估計(jì)就是利用這種方法來解決數(shù)據(jù)稀疏性問題的。(3) 基于相似性的聚類算法。假設(shè)我們需要根據(jù)埋在地面的線圈傳感器來估計(jì)行駛在道路上的車輛數(shù),但由于不是所有路面都埋有線圈,所以很多道路上的流量無法估計(jì)。根據(jù)道路的拓?fù)浣Y(jié)果、周邊的興趣點(diǎn)分布等信息,我們可以計(jì)算不同道路之間的相似性,從而對(duì)道路進(jìn)行聚類。這樣被分在同一個(gè)類里的道路很可能具有相同的車流模式。于是,在一個(gè)類中,我們可以將有傳感器道路的讀數(shù)賦給那些沒有傳感器的道路。
優(yōu)化技術(shù)
城市計(jì)算中也經(jīng)常用到各種優(yōu)化技術(shù)。比如文獻(xiàn)T-Share: a large scale dynamic taxi ridesharing service就是通過將時(shí)空搜索技術(shù)和路徑優(yōu)化相結(jié)合來尋找能夠接送乘客的最佳出租車。文獻(xiàn)Inferring the root cause in road traffic anomalies通過線性規(guī)劃來分析最有可能造成交通異常的車流。文獻(xiàn)Where to Find My Next Passenger? 向出租車司機(jī)推薦最優(yōu)的乘客尋找路線。
混合數(shù)據(jù)的可視化技術(shù)
可視化以直觀的方式幫助我們理解獲取的知識(shí)和模式。圖10 是每個(gè)工作日 12~14 點(diǎn)之間乘坐出租車到達(dá)各個(gè)區(qū)域的人數(shù)的熱度圖(顏色越深,人越多)。將不同時(shí)間段的此類熱度圖連續(xù)播放,便可以動(dòng)態(tài)反映整個(gè)城市的人口流動(dòng)規(guī)律。相對(duì)而言,北京東部的中央商業(yè)區(qū)具有更高的人氣。與單一數(shù)據(jù)可視化不同,城市計(jì)算中的可視化技術(shù)需要同時(shí)考慮多個(gè)維度,其中空間和時(shí)間是兩個(gè)至關(guān)重要的維度。
城市計(jì)算是一個(gè)新興的交叉領(lǐng)域,是計(jì)算機(jī)學(xué)科與傳統(tǒng)城市規(guī)劃、交通、能源、經(jīng)濟(jì)、環(huán)境和社會(huì)學(xué)等多個(gè)領(lǐng)域在城市空間的交匯。它關(guān)系到人類未來的生活質(zhì)量和可持續(xù)性發(fā)展。大數(shù)據(jù)時(shí)代的到來為城市計(jì)算提供了更多的機(jī)遇和更廣闊的前景。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03