
基于最小二乘法的異常行為分析模型設計
本文針對異常訪問現狀及問題進行簡要描述,在此基礎上提出基于一元線性回歸的最小二乘法異常訪問分析模型,通過該模型解決了異常訪問中時間與訪問間相關性問題。
異常訪問是指網絡行為偏離正常范圍的訪問情況。異常訪問包含多種場景,如Web訪問、數據庫訪問、操作系統訪問、終端交互等。
異常訪問一直是網絡信息安全中備受困擾的。困擾主要體現在以下幾個方面,通過某一個模型滿足所有場景,模型缺少明確使用條件致使結果不明確,模型計算量大計算耗時長等方面。
基于以上的現狀,本文僅針對系統登錄異常訪問進行分析,通過對系統登錄事件與時間進行回歸統計篩選出異常訪問時間段。
下圖為異常登錄事件檢測的時序圖:
異常登錄時序圖
異常登錄事件模型的活動圖流程如下:
1)用戶進行登錄,輸入相應的用戶名及口令。
2)系統進行登錄驗證,判斷是否為合法用戶登錄。
3)登錄成功或失敗均會將本次登錄行為記錄下來。
4)日志自動發(fā)送至分析系統。
5)分析系統對收到的日志進行分析,分析采用最小二乘法。
6)如果發(fā)現異常登錄事件則觸發(fā)告警事件。
7)最后工作人員可收到告警提示,并查看到相應的告警。
當觸發(fā)告警后,工作人員需要在量化分析中進行進一步分系工作。通過日志的登錄事件能夠找到何人何時登錄哪個系統。詳細記錄下這些信息后方可以進行后續(xù)的時間處置工作。
異常登錄模型是分析系統的一個重要分析模型。這個分析模型中采用最小二乘法對登錄事件進行異常判斷。異常判斷包括成功登錄的異常判斷,以及未成功登錄的異常判斷兩類。
以下面的成功登錄事件為例進行詳細說明:
登錄統計列表
上面的表格中描述的是以5分鐘為單位時間內,系統登錄成功的事件統計。
此時我們無法看出哪個時間單位內存在異常登錄的情況。
如下圖所示:
登陸次數散點圖
首先采用“最小二乘法”對其求解。
最小二乘法
求解出直線與散點圖疊加,如下所示:
登錄次數最小二乘法擬合圖
回歸模型
經過逐一計算每個點的殘差如下:
登陸次數殘差結果表
通過上面的表格可以看到,序號為5、9、10的三個點殘差值偏離相對比較大。同時,根據經驗判斷,正常的登錄事件殘差值通常在-10~+10之間。而這3個點的殘差值偏離區(qū)間明顯。殘差值分別為“15.23967”,”-16.4549”,“15.098”。
針對此登錄事件我們采用的置信區(qū)間為-10~+10,置信區(qū)間可根據不同的場景進行調整。
通過采用最小二乘法的方式進行異常登錄事件查詢,能夠很好的解決傳統統計表格中難以發(fā)現的問題。傳統的方式都是采用TopN的方式對登錄成功、登錄失敗的事件進行簡單羅列。但在眾多的登錄事件中,哪些是值得工作人員關注的卻難以得到體現。
最小二乘法的引用可以從眾多的登錄事件中分離出最為明顯的異常行為,通過系統的初篩能夠給工作人員提供可供量化分析能力。 工作人員通過量化分析模塊能夠對相應的事件進行分析工作。同時殘差值的可定義為靈活應對分析需求提供便利條件。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10