
如果我們把大數(shù)據(jù)這個詞作為一種新的計算理論、方法、技術和應用的綜合體來看,那么我們探討大數(shù)據(jù)與信息安全之間的關系,就有兩種方向:其一,就是如何用大數(shù)據(jù)來解決安全問題;其二,就是如何保障大數(shù)據(jù)的安全。本文探討的是前者,并且是通過對于數(shù)據(jù)根本屬性的探究,通過大數(shù)據(jù)基礎科學問題的探究,結合信息安全的根本原則和高端問題,探討大數(shù)據(jù)應用于安全的科學研究和產業(yè)開發(fā)重點課題。
【那些V】
談大數(shù)據(jù)似乎總要從所謂的“3個V”或者“4個V”談起。自己很想免俗,卻好像又沒有其他更好的切入點。也許這些個V還真的就是大數(shù)據(jù)的一些根本屬性,是繞不開的一些基礎問題。
在大數(shù)據(jù)的V中,有些是常說的,有些是不常說的,這里總結了7個V:
——Volume,海量的數(shù)據(jù)規(guī)模;
——Velocity,快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系;
——Vast,數(shù)據(jù)來自廣大無邊的空間;
——Variety,多樣的數(shù)據(jù)類型;
——Veracity,數(shù)據(jù)的真實和準確更難判斷;
——Value,大數(shù)據(jù)的低價值密度;
——Visualize,大數(shù)據(jù)可視化的重要性。
【我們需要多大的安全大數(shù)據(jù)】
在上面的這7個V中,第1V的Volume表現(xiàn)的是大數(shù)據(jù)的所謂“大”的狀態(tài)。
現(xiàn)在信息安全領域的常規(guī)市場和應用中,所遇到的數(shù)據(jù)量還都到不了當前大數(shù)據(jù)所謂的PB級;TB級數(shù)據(jù)都是比較少的處理對象。而在城域網(wǎng)監(jiān)控、網(wǎng)絡宏觀態(tài)勢感知等應用中,其實已經(jīng)積累并且繼續(xù)不斷增加著大量的數(shù)據(jù),將是大數(shù)據(jù)方法的重要用武之地。
【時間軸上的安全大數(shù)據(jù)】
Velocity所代表的時間范疇,是大數(shù)據(jù)的重要來源。
在當前常規(guī)的信息安全產品中,特別是具有代表性的檢測響應類產品技術中,大量采用實時檢測;所謂“實時”當然體現(xiàn)了“快速”的內涵。而在帶寬越來越大、系統(tǒng)越來越復雜,采集數(shù)據(jù)越來越多的同時,安全檢測對于時間響應的即時性要求并沒有減弱。如果對于源源洶涌而來的數(shù)據(jù)不能及時處理,就將被數(shù)據(jù)淹沒 (DoS)。這就需要實時或準實時分析系統(tǒng)中采用更多的“流計算”方法。(流計算是區(qū)別對比于批量計算的方法)
流計算在安全分析中的應用
另外,“實時”常常還隱含著一個缺省的意思——主要根據(jù)當前數(shù)據(jù)(或者數(shù)據(jù)緩存)作出分析判斷,也就是說不大量保存長時間的原始數(shù)據(jù)(或者說時間窗口比較窄)。而安全事件及其原因本身具有很長的時間跨越性(APT就是跨越長時間的緩慢攻擊模式),這逼迫我們要存儲更長時間的日志和網(wǎng)絡流等原始數(shù)據(jù);而當我們開始存儲更長時間的數(shù)據(jù)時,也發(fā)現(xiàn)了這些動態(tài)數(shù)據(jù)流通過“存儲”而變成了靜態(tài)的數(shù)據(jù)塊,于是并行計算、異步計算以及一些智能算法等就可以被應用于其上了。
我們分析一些IT架構模型:比如Zachman將一個IT系統(tǒng)分成數(shù)據(jù)、功能、人、網(wǎng)絡、時間和動機等六個方面;再比如DOSH視角將一個IT系統(tǒng)分成數(shù)據(jù)、操作、系統(tǒng)和人四個方面。說一個很哲學化的結論:“所有的IT系統(tǒng)要素中,只有數(shù)據(jù)是能夠穿越時間的”。其他要素如功能、系統(tǒng)、人、網(wǎng)絡、操作等等都只能存在于當下;只有數(shù)據(jù)天然就是可以從過去留存到現(xiàn)在,并且可以從當下延續(xù)到以后。所以,任何一個以數(shù)據(jù)為核心的方法和技術,都要在時間延展上下功夫。所謂時間延展,說得直白一點就是要在(英文同是Memory的)存儲和記憶上下功夫。
課題:流數(shù)據(jù)的高速存儲和分析問題(存儲結構與分析方法具有深度關聯(lián))
【空間上的安全大數(shù)據(jù)】
Vast所代表的空間范疇,是大數(shù)據(jù)的三個重要來源之一。也就是從更多的空間位置采集大數(shù)據(jù)。
任何一個攻擊過程、任何一個安全事件蔓延過程都會涉及很多空間位置和空間范圍,沒有哪個安全問題是孤點問題。那么在對一個多空間點的安全事件對象,要進行更加充分的分析和發(fā)現(xiàn),當然是獲得更多空間位置的采集數(shù)據(jù)會更好。數(shù)據(jù)采集點的增加當然會線性地增加安全分析的數(shù)據(jù)量。而如果每個數(shù)據(jù)采集點所采集的數(shù)據(jù)也比較大的話,那就更成為了一個分布式大數(shù)據(jù)問題。
在空間范圍內傳輸大數(shù)據(jù)是一個必須回避的操作,這樣的傳輸會給網(wǎng)絡帶來災難性的性能壓力。或者說根本不能考慮大數(shù)據(jù)的傳輸,而只能考慮將計算移動到數(shù)據(jù)旁邊,也就是要進行分布式存儲和分布式計算。這里面一個根本的問題就是,“一個全局性安全問題是否可以分解為多空間位置的局部計算,而各個空間位置的局部計算解經(jīng)過合并后,所得到的綜合解是有效的全局解?!?/span>
【多樣性的安全大數(shù)據(jù)】
Variety所代表的數(shù)據(jù)多樣性,也是大數(shù)據(jù)的三個重要來源之一。也就是從更多樣的數(shù)據(jù)形態(tài)中獲得大數(shù)據(jù)。
當前信息安全市場中的主流產品,基本上都是單一數(shù)據(jù)類型的檢測工具。
產品被分析和處置數(shù)據(jù)的類型
漏洞掃描發(fā)向目標系統(tǒng)所返回的數(shù)據(jù)
防火墻、IDS/IPS、UTM、病毒防火墻等網(wǎng)絡鏈路上的通用網(wǎng)絡數(shù)據(jù)流
Web應用防火墻(WAF)、數(shù)據(jù)庫審計等網(wǎng)絡鏈路上的專門網(wǎng)絡數(shù)據(jù)流:WAF對應的是Web訪問流;基于網(wǎng)絡的數(shù)據(jù)庫審計對應的是Web服務器和數(shù)據(jù)服務器之間的網(wǎng)絡流。
防垃圾郵件系統(tǒng)郵件包
日志審計服務器產生的日志
終端安全產品終端系統(tǒng)的日志、配置、操作痕跡等。
安全管理平臺(SIEM安全信息與事件管理)各種設備和安全產品所產生的事件類數(shù)據(jù)(包括日志),經(jīng)過范化(Normalization)后匯集到安全管理平臺中。
從上面這個表格看到,大部分安全產品所處置的數(shù)據(jù)確實都比較單一。而現(xiàn)實中的任何一個安全事件都是有豐富數(shù)據(jù)痕跡的,如果能夠綜合多樣化的數(shù)據(jù),應當可以獲得更加準確和深入的分析結果。而且,當前信息安全檢測方面的兩個高端問題:APT檢測問題、網(wǎng)絡宏觀態(tài)勢感知與預測問題,也必須通過多樣化的數(shù)據(jù)才可能有效地解決。
什么是所謂的“數(shù)據(jù)多樣性”?其實就是數(shù)據(jù)的“結構”多樣性。一個安全事件行為所留下的各種各樣的痕跡,是難于用少數(shù)幾種結構來概括的。如果要強行進行數(shù)據(jù)格式的范化和歸一化,則必然會丟失多樣性數(shù)據(jù)所蘊含的豐富內容,從而丟失關鍵信息。所以,傳統(tǒng)的安全管理平臺的數(shù)據(jù)收集、范化和關聯(lián)分析方法,難于獲得令人滿意的安全價值也就不奇怪了。
大數(shù)據(jù)方法所針對的一個重要問題就是所謂“非結構化”問題或者“半結構化”問題。其實,沒有哪個數(shù)據(jù)是沒有結構的,每個數(shù)據(jù)都是“結構化”的,只不過這個所謂“非結構化”的“結構化”不是我們容易處理和分析的結構,不是我們常用的 “二維表結構”(以關系數(shù)據(jù)庫處理系統(tǒng)為核心)。比如,網(wǎng)絡數(shù)據(jù)流是天然的延時間軸展開的流結構,最適合播放操作;一個網(wǎng)絡區(qū)域中各個系統(tǒng)之間的連接關系是一個圖論中的網(wǎng)結構;而不同系統(tǒng)所產生的多樣化日志是一些格式互不相同的二維表結構。
大數(shù)據(jù)方法的一個突出代表就是NoSQL類型的數(shù)據(jù)存儲與檢索分析。盡力保留大量數(shù)據(jù)的原始形態(tài),以此為基礎進行后續(xù)的分析和處理。在信息安全市場中,市場份額最大的就是部署在網(wǎng)絡鏈路上的網(wǎng)關和旁路檢測產品,這些產品都是對網(wǎng)絡流進行分析的,那么網(wǎng)絡流的原始數(shù)據(jù)留存和快速分析將是躲不過去的關鍵課題。
網(wǎng)絡流安全數(shù)據(jù)的原始數(shù)據(jù)留存和快速數(shù)據(jù)分析視圖
【好不好的安全大數(shù)據(jù)】
再說一句很哲學的話:“所有的IT系統(tǒng)要素中,只有數(shù)據(jù)是可以偽造和臆想”。其他的要素功能、系統(tǒng)、人、網(wǎng)絡、操作等等,也許一個會像另一個,但是每個都只能是自己。只有數(shù)據(jù)天然就是可以被修改、被偽造,并且可以無中生有。所以,數(shù)據(jù)有好壞問題,而這個好壞問題在大數(shù)據(jù)中會更加極端地被放大。
所以大數(shù)據(jù)的Veracity真實和準確問題,是在“量”的性能問題之外所面臨的最難的問題。更泛的表達這個話題就是數(shù)據(jù)的“質”——數(shù)據(jù)質量問題。在《數(shù)據(jù)質量工程實踐》一書中,談到了數(shù)據(jù)質量的12個維度很值得借鑒:
1. 數(shù)據(jù)規(guī)范(data specification)
2. 數(shù)據(jù)完整性準則(data integrity fundamentals)
3. 重復(duplication)
4. 準確性(accuracy)
5. 一致性和同步(consistency and synchronization)
6. 及時性和可用性(timeliness and availability)
7. 易用性和可維護性(ease of use and maintainability)
8. 數(shù)據(jù)覆蓋度(data coverage)
9. 表達質量(presentation quality)
10. 可理解性、相關性和可信度(perception, relevance and trust)
11. 數(shù)據(jù)衰變(data decay)
12. 效用性(transactability)
【價值導向的安全大數(shù)據(jù)】
數(shù)據(jù)是物理世界的數(shù)化反映。一句哲學化的說法:“價值讓數(shù)據(jù)不同于數(shù)字”。數(shù)據(jù)背后是有對象的,而這些對象常常是有屬主的、有立場的、有價值歸屬的、主觀的。
大數(shù)據(jù)幾個V中的這個Value,最主要的意思就是“大數(shù)據(jù)的低價值密度”。由于大數(shù)據(jù)的體量很大,其所蘊含的價值總量是很大很可觀的,但是由于其體量大也就導致了其價值密度極低,而且是極端的低密度、極度地稀疏。
稀疏價值背后帶來了一個很前沿的學術方法——超高維問題。這些稀疏的價值,就像在一個高維空間的一些稀疏的點。高維到什么程度?稀疏到什么程度?最極端的情況就是這些數(shù)據(jù)樣本的維度甚至比樣本個數(shù)還大。比如,人類基因測序問題就是這類型的問題,基因所蘊含的豐富維度是大大高于普通研究中所能涉及的幾十萬幾百萬樣本規(guī)模的。
在傳統(tǒng)計算的處理習慣和限制下,我們會盡量獲取二維或者低維數(shù)據(jù)。而大數(shù)據(jù)方法提示我們可以主動獲取高維度數(shù)據(jù)來解決無特征安全分析問題。比如,為被分析對象抽取高維度指標(幾百甚至更多維度),然后再進行降維算法處理。這是安全分析中非常有前途的方向。
課題:高維安全數(shù)據(jù)降維算法和高性能計算。
所謂的價值稀疏,還有另一個視角。當具體到某一個精確定義和要求的價值,在大數(shù)據(jù)中是稀疏的。而大數(shù)據(jù)中的挖掘和利用中,不一定要獲取過于精確的價值。比如,在進行“實體的個體標識”過程中,所獲得的稍微模糊一些的“實體的分類標識”就能夠產生不少的價值。常常說大數(shù)據(jù)是未來的石油。但是,在廣袤的地球中,除了石油,還有煤、天然氣;還有金子、鉆石、翡翠;而像南紅瑪瑙、蜜蠟、青金石這樣的新珠寶還在被逐步的挖掘出來。所以對于大數(shù)據(jù)的價值挖掘要有種地刨出田黃石雞血石的心理預期。
但是,信息安全問題的解(價值)還是有比較明確的指向性的——就是在對抗中獲勝。而對抗中獲勝的價值分解就非常豐富多彩了。要平衡信息安全價值指向的確定性與大數(shù)據(jù)的泛價值之間的矛盾。
【價值展現(xiàn)的安全大數(shù)據(jù)】
價值如果挖掘出來了,還要展現(xiàn)給應當了解這些價值的人(或者系統(tǒng))。這種可視化展示有兩種努力方向:
第一種,就是將大數(shù)據(jù)中的價值“在較短的時間窗口內,用較低維度的形態(tài)”展現(xiàn)出來。比如一幅圖,就是單點時間的二維圖。比如病毒傳播過程展示,就是短時間的網(wǎng)絡拓撲(二維)過程錄像。
第二種,就是給需要進行處置和響應的人和系統(tǒng),提供足夠的提示信息甚至是指令。自動和輔助駕駛的汽車和飛機,就需要這樣的可視化系統(tǒng)。
而廣域網(wǎng)網(wǎng)絡風暴快速處置就同時需要前面這兩種可視化能力。
【總結】
分析幾個V背后的規(guī)律,讓我們反思和了解大數(shù)據(jù)的一些基礎問題。在7個V中,
——第1V,表達的是大數(shù)據(jù)所外在表現(xiàn)的 “大”量;
——第2V-4V說的是大數(shù)據(jù)的“大”是從時間、空間和多樣性這三個方向而來;
——第5V-7V闡述的是大數(shù)據(jù)的價值流轉。從數(shù)據(jù)本身的客觀質量,到有立場的價值認識和價值挖掘,最后到價值的展示和利用。
大數(shù)據(jù)方法為信息安全能力帶來了更大潛力,也有更多有趣的課題等待業(yè)界去研究和價值化。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10