
安防大數(shù)據(jù)技術(shù)難點分析與解決方案_數(shù)據(jù)分析師
第1頁:大數(shù)據(jù)當(dāng)前在各行業(yè)的應(yīng)用
伴隨著大數(shù)據(jù)技術(shù)在IT領(lǐng)域的持續(xù)發(fā)展與成熟,大數(shù)據(jù)逐步滲透到各行各業(yè)。在安防領(lǐng)域,大數(shù)據(jù)具有廣闊的應(yīng)用場景,帶來深度的價值。經(jīng)過初步摸索,安防大數(shù)據(jù)也面臨一些技術(shù)難點。對于這些問題,我們分析安防行業(yè)特有的場景特點,探討一些貼切的解決方案,使得大數(shù)據(jù)技術(shù)更好地為安防業(yè)服務(wù)。
大數(shù)據(jù)當(dāng)前在各行業(yè)的應(yīng)用
大數(shù)據(jù)技術(shù)發(fā)端于IT領(lǐng)域,當(dāng)前在互聯(lián)網(wǎng)、電子商務(wù)中應(yīng)用得最為成熟。Google公司根據(jù)用戶海量的搜索日志,成功預(yù)測病情在北美的蔓延情況;通過分析處理大量的語料庫,為用戶提供精準(zhǔn)的在線翻譯。亞馬遜根據(jù)用戶過往的購買行為,分析出特定用戶群的購買“口味”,從而在自己的網(wǎng)站中提供精準(zhǔn)的廣告推薦。而國內(nèi)的淘寶網(wǎng),通過分析網(wǎng)民瀏覽商品的日志,給買家提供到特定商品的關(guān)聯(lián)匹配。
在其他行業(yè),大數(shù)據(jù)的使用也屢見不鮮:
在衛(wèi)生行業(yè),基于全民的電子檔案與電子病歷庫正在構(gòu)建。通過全民電子病歷庫,我們能分析全民的健康狀況,監(jiān)控相關(guān)疾病的蔓延走勢,為做好衛(wèi)生防范措施提供參考。
在電力行業(yè),通過分析大區(qū)域的用電記錄,能夠優(yōu)化電力企業(yè)管理模式,提升企業(yè)經(jīng)營水平,為基建決策提供有力參考,提高智能控制水平,加強電力的協(xié)同管理。同樣對于整個國家,通過分析用電情況,在宏觀掌握國家的經(jīng)濟狀況,為制定經(jīng)濟政策提供參考。
在物流行業(yè),通過分析大量以往的配送記錄,在宏觀上掌握大類物品的流向,提前把物品運送到特定區(qū)域,提高送貨效率。在國外,一家大型的超市,通過分析交通與商品大體流向,能在精確的時間范圍內(nèi),把特定類商品送到特定的門店,減少庫存時間,提高周轉(zhuǎn)率,創(chuàng)造企業(yè)利潤。
同樣,在安防領(lǐng)域,大數(shù)據(jù)也得到廣泛使用。
大數(shù)據(jù)助力安防行業(yè)
經(jīng)過一段時間的摸索,大數(shù)據(jù)助力安防行業(yè)的發(fā)展取得相當(dāng)?shù)某尚?,部分企業(yè)如海康威視(002415,股吧)等已經(jīng)有了較多的成熟項目案例。
在智慧交通方面,??低暯柚髷?shù)據(jù)技術(shù),交通管理系統(tǒng)能夠在惡劣的網(wǎng)絡(luò)環(huán)境,對城區(qū)交通要道進(jìn)行拍攝與錄制,同時把圖片與視頻數(shù)據(jù)輸往后端的大數(shù)據(jù)處理平臺。通過后端大數(shù)據(jù)處理,識別繁忙的路段,提前做好交通分流措施。借助車牌識別技術(shù),綜合各卡口的過車記錄,能夠分析特定車輛的運行軌跡。同樣,通過對大量行車違法記錄的模式識別,能在特定路段對具有違規(guī)傾向的車輛進(jìn)行報警,比如在高架橋,高速公路上。通過對城市周邊主要卡口大量的行車記錄分析,能識別出異常的進(jìn)出城的記錄,做好防范措施。
在公安執(zhí)法方面,海康威視通過人臉識別技術(shù),提高對犯罪嫌疑人追查的效率。通過對大量異常行為的模式特征提取,能提前判別違法行為,比如在火車站,通過對扒手外觀打扮,行為舉止,作案時的動作特征分析,能夠提前把嫌疑信息告知車站治安人員,提高執(zhí)法的效率。
在平安城市、智能家居,方方面面,安防大數(shù)據(jù)也引領(lǐng)很多新奇的應(yīng)用。
第2頁:安防大數(shù)據(jù)當(dāng)前面臨的技術(shù)難點
安防大數(shù)據(jù)當(dāng)前面臨的技術(shù)難點
然而,伴隨著大數(shù)據(jù)在安防領(lǐng)域越來越深入的應(yīng)用,也突現(xiàn)出一些技術(shù)難點。在IT領(lǐng)域,大數(shù)據(jù)技術(shù)發(fā)展較為成熟,針對不同的應(yīng)用場景有較為豐富的技術(shù)選型以及技術(shù)路線,其中很多技術(shù)可以移植應(yīng)用到安防領(lǐng)域中。但I(xiàn)T與安防畢竟是兩個不同的領(lǐng)域,兩者之間存在很多不一樣的地方。最大的不同,就是數(shù)據(jù)本身的不同,主要體現(xiàn)在一下方面:
數(shù)據(jù)類型不同。在IT領(lǐng)域,大數(shù)據(jù)處理的對象往往是網(wǎng)頁索引、用戶行為、日志記錄等字符型數(shù)據(jù),這些是結(jié)構(gòu)化、方便計算識別處理的數(shù)據(jù)。而在安防領(lǐng)域,數(shù)據(jù)往往以圖片、音頻、視頻等非結(jié)構(gòu)化的數(shù)據(jù),往往計算機不能直接識別,這些數(shù)據(jù)只有在人面前才顯得有意義。
數(shù)據(jù)量在數(shù)量級上的不同。在互聯(lián)網(wǎng)領(lǐng)域,單條日志記錄一般在一百字節(jié)之內(nèi),到了1PB的日志記錄,已經(jīng)是一個足夠大的量。但在安防領(lǐng)域,一張普通的縮略圖就幾百KB,如果考慮高清攝像,高清視頻,這個數(shù)量要更大。一個普通的中等城市,在主要交通卡口拍攝的圖片,一年下來就能積壓幾個PB的數(shù)據(jù),如果考慮視頻,這個數(shù)據(jù)量更大。
對數(shù)據(jù)的實時性要求不同。在互聯(lián)網(wǎng)行業(yè),以日志型數(shù)據(jù)分析為主的典型應(yīng)用中,對實時性要求沒那么高,比如淘寶的推薦系統(tǒng),是否分析最近一個小時用戶的瀏覽記錄對于推薦效果關(guān)系不大。而在安防領(lǐng)域,前端攝像頭錄制的都是實時流,這是一個不間斷的數(shù)據(jù)流,最近錄制的數(shù)據(jù)超過一定時間沒有得到有效保存,將會永遠(yuǎn)被丟失。
針對安防領(lǐng)域與IT領(lǐng)域在數(shù)據(jù)本身上的異同,把適合IT領(lǐng)域常規(guī)的大數(shù)據(jù)技術(shù)搬到安防領(lǐng)域就會碰到一些技術(shù)難點,表現(xiàn)如下:
存儲成本問題。在IT領(lǐng)域,海量的數(shù)據(jù)往往保存在分布式存儲系統(tǒng)中,為了提高數(shù)據(jù)的可靠性,一份數(shù)據(jù)往往復(fù)制成幾份相同的副本,分別保存在不同的節(jié)點中,當(dāng)其中一些副本丟失時,可以從其他節(jié)點讀出數(shù)據(jù)。比如在Hadoop中,一份數(shù)據(jù)往往在集群中保存了相同的3份。如果有1PB的原始數(shù)據(jù),則至少要占用3PB的磁盤空間。而在安防領(lǐng)域,幾個交通卡口的視頻,在一個較短的時間內(nèi),如果不覆蓋之前的數(shù)據(jù),就能輕易積壓幾個PB。由于圖像、音頻、視頻數(shù)據(jù)本身的量太大,生搬傳統(tǒng)的多副本策略成本過高,我們需要設(shè)計出一些更高效同時不損失可用性的方案。
小文件存儲問題。這個問題是大數(shù)據(jù)技術(shù)面臨的一個共性問題,但在安防領(lǐng)域可能又突現(xiàn)得較為嚴(yán)重。在互聯(lián)網(wǎng),小文本、圖片、音樂都是小文件,當(dāng)層積較多時,都面臨如何存取這些海量小文件的問題。而在安防行業(yè),小文件主要以圖片為主,比如一個城市的主要交通卡口在一年內(nèi),就能產(chǎn)生百億張圖片。對于這些海量的小文件的存儲,涉及到大量元數(shù)據(jù)的管理,保證存取的性能是問題的關(guān)鍵。
當(dāng)然,問題并不可怕,通過分析研究安防應(yīng)用場景,我們摸索出一些貼合安防大數(shù)據(jù)的解決方案。
解決問題的方向
引入擦除碼(ErasureCode)技術(shù),節(jié)省存儲空間。擦除碼是一個在通信理論中的術(shù)語,其基本思想就是:一條原始信息由K個符號構(gòu)成,在信息發(fā)送前,通過某種具有冗余功能的數(shù)學(xué)映射,生成由(K+M)個符號組成的編碼后的信息,然后把編碼后的信息通過信道發(fā)送給接受方,由于信道的不可靠特性,在信息傳輸?shù)倪^程中可能會丟失幾個符號,接受方在接受到信息后,只要丟失的符號不超過M個,則接受方在剩余的符號中通過逆向的數(shù)學(xué)變換,能還原出由K個符號組成的原始信息。
如上圖所示:原始信息由[A、B、C]三個符號組成,現(xiàn)在通過編碼函數(shù)f對其進(jìn)行編碼,生成編碼后的信息為[a、b、c、d、e],編碼后的信息在信道上進(jìn)行傳輸,在傳輸?shù)倪^程中由于某種原因符號a與b丟失了,接受方只接受到了三個符號[c、d、e],接受方通過解碼函數(shù)-f(實際上就是編碼函數(shù)的逆函數(shù))進(jìn)行解碼,能夠計算出原始的信息[A、B、C]。由上可看出,信道雖然不可靠,但在信道上丟失的兩個符號并不影響我們整個信息的傳輸,我們唯一要做的工作就是在發(fā)送信息前與接收信息后做一定的編碼與解碼工作。
受上面思想的啟迪,在分布式存儲系統(tǒng)中,一個大文件分成若干塊,這些不同的塊分發(fā)到不同的節(jié)點中,現(xiàn)在假設(shè)一個文件由K個數(shù)據(jù)塊組成,我們通過編碼后變成(K+M)個編碼塊,再把這(K+M)個編碼塊分發(fā)到不同的節(jié)點中?,F(xiàn)在由于集群中幾個節(jié)點失敗,丟失了幾個塊,只要丟失的塊數(shù)不超過M,我們依然能從其他節(jié)點中讀入K個編碼塊,通過解碼運算,得出我們之前的K個數(shù)據(jù)塊,也就還原出那個完整的文件。而在分布式系統(tǒng)中,超過M個數(shù)據(jù)節(jié)點同時失效的可能性很小,由此可以看出,雖然存在節(jié)點失敗的情況,但依然不影響我們數(shù)據(jù)存儲的可靠性。這里引入額外的存儲空間為(M/K)倍,而傳統(tǒng)的N副本策略,引入的額外存儲空間為(N-1)倍,通過調(diào)節(jié)M與K的關(guān)系,我們能把存儲空間降到1.3倍,這與傳統(tǒng)Hadoop占用存儲空3倍相比,具有巨大的節(jié)省價值。
在工程實踐中,我們通過數(shù)據(jù)分條帶,優(yōu)化編碼分組策略,進(jìn)行高效快速的編解碼計算,既保證數(shù)據(jù)存取的性能,又節(jié)省了大量的磁盤空間。如圖-2,數(shù)據(jù)橫向分條帶,同一個條帶內(nèi),左邊為原始數(shù)據(jù)(K=4),右邊為編碼后的數(shù)據(jù)(M=2),存儲時,把同一個條帶內(nèi)的所有數(shù)據(jù)分發(fā)到分布式系統(tǒng)上的不同節(jié)點。當(dāng)處于同一個條帶內(nèi)的數(shù)據(jù)丟失塊數(shù)不超過2時,依然能從剩下的數(shù)據(jù)塊中通過解碼計算出原始的數(shù)據(jù)。
建立索引,小文件合并成大文件集中存儲。對于大量的數(shù)據(jù),單機無法存儲,借助分布式存儲技術(shù),將數(shù)據(jù)分散存儲到不同的節(jié)點上。但主流的HDFS分布式存儲系統(tǒng)適合存儲少量的大文件,就是文件個數(shù)較少,但單個文件的很大。如果大量的小文件樸素的存放在HDFS中,由于要管理的元數(shù)據(jù)巨大,嚴(yán)重印象集群的可擴展性,以及文件本身的存儲性能。解決問題的思路是,把大量的小文件合成一個大文件,同時對這些小文件建立索引,索引信息集中管理。當(dāng)要讀取文件時,先查找索引信息,根據(jù)查找出的索引信息再定位到那個大文件具體位置,讀出小文件。
如圖-3,上面為把若干小文件合成一個大的文件,下面為針對這些小文件建立的索引,所有的索引又合成一個索引文件。在工程實踐中,我們又對索引文件的結(jié)構(gòu)進(jìn)行了優(yōu)化,引入了哈希索引結(jié)構(gòu),由于哈希定位過程相當(dāng)過,所以提升了小文件的讀取性能。同時,由于索引文件很小,我們除把索引文件持久化到底層文件系統(tǒng),還同時把索引信息讀入內(nèi)存,這樣極大提升了文件存取效率。
結(jié)語
隨著大數(shù)據(jù)技術(shù)的逐步發(fā)展與深入應(yīng)用,它會給我們帶來越來越多的潛在價值。當(dāng)安防行業(yè)進(jìn)入就計算化時代后,各種前端設(shè)備采集大量的圖片、音頻、視頻,這個數(shù)據(jù)在一個較小的區(qū)域一個較短的時間內(nèi),就能積攢海量的數(shù)據(jù),要掌握并且成功挖掘出這些數(shù)據(jù)的價值,更好的為安防服務(wù),急需我們掌握大數(shù)據(jù)技術(shù)。目前,安防行業(yè)僅有??低暤葮O個別企業(yè)掌握了該項技術(shù)。
由于安防行業(yè)和IT互聯(lián)網(wǎng)行業(yè)存在差異,我們在借鑒互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的同時,也要深入研究我們的安防場景,探索一些貼切安防應(yīng)用的大數(shù)據(jù)技術(shù)。安防大數(shù)據(jù)第一階段要解決安防大數(shù)據(jù)的存儲問題,當(dāng)解決好存儲問題后,我們進(jìn)入到安防大數(shù)據(jù)分析處理階段,當(dāng)我們具備嫻熟的分析處理技術(shù)后,可以進(jìn)入深度學(xué)習(xí),多維數(shù)據(jù)挖掘的深入應(yīng)用。這一路還很漫長,我們慢慢探索,精益求精,一定能讓安防大數(shù)據(jù)更好的服務(wù)安防業(yè),保證我們的幸福安康。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03