99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀基于日志文件的數(shù)據(jù)挖掘機(jī)理分析與研究
基于日志文件的數(shù)據(jù)挖掘機(jī)理分析與研究
2016-02-20
收藏

基于日志文件的數(shù)據(jù)挖掘機(jī)理分析與研究

引言
       所謂數(shù)據(jù)挖掘(也叫知識(shí)發(fā)現(xiàn)[1]),是指發(fā)現(xiàn)大量數(shù)據(jù)中有趣及有用模式和關(guān)系的過程,該領(lǐng)域結(jié)合了統(tǒng)計(jì)、人工智能和數(shù)據(jù)庫管理等知識(shí),以方便對(duì)大數(shù)據(jù)進(jìn)行分析。該定義可從如下4個(gè)方面進(jìn)行理解:(1)數(shù)據(jù)挖掘處理的數(shù)據(jù)量非常大;(2)這些數(shù)據(jù)在計(jì)算機(jī)系統(tǒng)上以機(jī)器可讀的格式存在,是結(jié)構(gòu)化的數(shù)據(jù);(3)利用數(shù)據(jù)可能會(huì)得出一些有用的結(jié)論,也可能無法得出結(jié)論;(4)要想獲得一些有用的結(jié)論,需對(duì)數(shù)據(jù)進(jìn)行搜索或者分析。
對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的目的[2]有兩個(gè):(1)改進(jìn)日志分析的質(zhì)量,提供更好的結(jié)論和預(yù)測(cè)能力;(2)提出不需要少有且昂貴的專業(yè)知識(shí)的高級(jí)和有效方法。通過對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和其他高級(jí)自動(dòng)化分析方法,可將大部分分析的負(fù)擔(dān)轉(zhuǎn)移到軟件和自動(dòng)化系統(tǒng)上,遠(yuǎn)離具備超常技能的分析人員。這樣的分析在過程的早期階段是重要的。在這種情況下,可定義數(shù)據(jù)挖掘過程的細(xì)節(jié),然后讓技能水平較低的操作人員運(yùn)行算法,并對(duì)結(jié)果采取行動(dòng),而不會(huì)降低效率。
1.日志數(shù)據(jù)面臨的挑戰(zhàn)
       在理想的狀況下,大都希望減少人為工作量,提升自動(dòng)化系統(tǒng)在日志分析中的重要性。而對(duì)日志進(jìn)行數(shù)據(jù)挖掘[3]就是一種有效的方法,但日志分析會(huì)面臨如下挑戰(zhàn)。(1)數(shù)據(jù)過多:日志數(shù)據(jù)的體積很大,超出了分析系統(tǒng)和分析人員的能力,從而摧毀了獲得結(jié)論的可能性。確實(shí),日志可能達(dá)到數(shù)GB,并擴(kuò)大到數(shù)TB,因而就需要選擇專門工具來應(yīng)對(duì)這種“洪泛”。(2)數(shù)據(jù)不足:因?yàn)楦鞣N不同的原因,數(shù)據(jù)的關(guān)鍵部分易缺失,從而使日志分析超出了應(yīng)有的難度。(3)記錄各種各樣:需要分析太多不同和不相似的日志來源,才能得出真相。這個(gè)問題是因?yàn)槿狈y(tǒng)一的審計(jì)標(biāo)準(zhǔn),大部分應(yīng)用程序的日志都采用創(chuàng)建者開發(fā)的格式,從而導(dǎo)致大量分析上的挑戰(zhàn)。(4)數(shù)據(jù)重復(fù):不同的日志引用相同事件,沒有任何指示。這種情況往往因?yàn)椴煌罩驹慈狈r(shí)間同步而變得更加復(fù)雜。
2.對(duì)日志進(jìn)行數(shù)據(jù)挖掘的原因
         雖然現(xiàn)已有很多技術(shù)可應(yīng)對(duì)日志數(shù)據(jù)的挑戰(zhàn),但仍需對(duì)日志進(jìn)行數(shù)據(jù)挖掘,其原因如下:(1)通過啟用更多類似人類的模式識(shí)別,只需要在分析的早期階段具備較高的專業(yè)知識(shí),從而減少對(duì)高技能分析人員的依賴。(2)處理其他較為常規(guī)的方法,但對(duì)稀疏數(shù)據(jù)無法進(jìn)行有效分析。(3)檢測(cè)其他無法發(fā)現(xiàn)的事實(shí),日志數(shù)據(jù)挖掘能夠提高檢測(cè)入侵痕跡的效率。(4)將結(jié)論生成的負(fù)擔(dān)轉(zhuǎn)移到機(jī)器上,這樣,目前僅能由人類完成的任務(wù)也可實(shí)現(xiàn)自動(dòng)化??筛鶕?jù)結(jié)論采取的行動(dòng),從而避免為了解所發(fā)生的情況而絞盡腦汁。(5)嘗試預(yù)測(cè)問題,而不是尋找處理已發(fā)生情況的方法。雖然數(shù)據(jù)挖掘不提供對(duì)這類預(yù)測(cè)的保證,但確實(shí)比其他方法更接近目標(biāo)。
3.日志數(shù)據(jù)挖掘需求分析
        日志數(shù)據(jù)挖掘的許多需求與重要的日志分析一樣,但有些附加因素可能會(huì)使日志數(shù)據(jù)更適合于挖掘,或?qū)⒖蛇x需求轉(zhuǎn)變?yōu)閺?qiáng)制性需求。
3.1 數(shù)據(jù)集中化   對(duì)于過濾和總結(jié)等常規(guī)日志分析來說,只關(guān)注一個(gè)位置是很好的,而對(duì)于日志挖掘這一點(diǎn)變得很關(guān)鍵,因?yàn)橥诰蛩惴ū热魏畏治鋈藛T處理的數(shù)據(jù)都要多得多。
3.2 規(guī)范化   如上所述,查看集中化的不同數(shù)據(jù)源需要統(tǒng)一的信息格式,這種格式并不是真正的標(biāo)準(zhǔn),只是表現(xiàn)日志數(shù)據(jù)的統(tǒng)一方式。
3.3 關(guān)系存儲(chǔ)    關(guān)系數(shù)據(jù)存儲(chǔ)是不可缺少的。但是如果只進(jìn)行監(jiān)督的分析和過濾,那這樣做就沒有什么價(jià)值。這種規(guī)范化可通過搜索日志中的公共字段實(shí)現(xiàn)。常見的字段包括:時(shí)間、來源、目標(biāo)、協(xié)議、端口、用戶名、事件/攻擊類型、交換字節(jié)數(shù)等。因此,規(guī)范化和集中化數(shù)據(jù)可能受制于日志數(shù)據(jù)挖掘算法?,F(xiàn)在,應(yīng)做好準(zhǔn)備研究應(yīng)用數(shù)據(jù)挖掘所要尋找的內(nèi)容。
4.對(duì)日志數(shù)據(jù)挖掘什么
       數(shù)據(jù)挖掘方法在不確定所需搜索內(nèi)容時(shí)最有用。如何找到有趣的信息?系統(tǒng)管理員和安全分析人員覺得有趣和有幫助的信息有如下6種。
4.1 受感染的系統(tǒng)傳播惡意軟件    在許多情況下很明顯,每個(gè)安全管理員對(duì)受感染后在企業(yè)范圍甚至互聯(lián)網(wǎng)范圍內(nèi)傳播的系統(tǒng)都有著很大的興趣。盡管有防病毒軟件和其他專用解決方案,日志挖掘在跟蹤這種危害性極大的系統(tǒng)方面已經(jīng)被證明很有價(jià)值。
4.2 遭到入侵的系統(tǒng)    每個(gè)獲得認(rèn)證的安全專家都應(yīng)該對(duì)了解攻擊者或惡意軟件已經(jīng)接管網(wǎng)絡(luò)中的一個(gè)或者多個(gè)系統(tǒng)感興趣。
4.3 成功的攻擊   如果攻擊者剛剛成功地在你的系統(tǒng)上打開缺口,婉轉(zhuǎn)地說,知道這一點(diǎn)可能“有趣”;雖然這與前一條相關(guān),但是它通常指的是攻擊的早期階段,這時(shí),攻擊從嘗試發(fā)展為成熟的入侵和對(duì)系統(tǒng)的利用。
4.4 內(nèi)部人員違規(guī)使用和知識(shí)產(chǎn)權(quán)竊取   懷有惡意的黑客和蠕蟲出盡了風(fēng)頭,而內(nèi)部網(wǎng)絡(luò)違規(guī)使用相比之下似乎顯得簡(jiǎn)單。但是,內(nèi)部人員擁有這一王國(guó)的所有鑰匙,可能造成更加嚴(yán)重的破壞。更糟糕的是,檢測(cè)他們的攻擊比檢測(cè)普通的惡意軟件困難得多。
4.5 隱蔽通道/隱藏后門通信    除非“精于此道”,否則網(wǎng)絡(luò)中可能不會(huì)常用到隱蔽通道;因此,網(wǎng)絡(luò)安全管理人員很可能對(duì)了解這一情況很感興趣。

4.6 探查增加   雖然大部分敏感的政府網(wǎng)絡(luò)現(xiàn)在只將互聯(lián)網(wǎng)探查活動(dòng)視為噪聲,但如果在日志中反映出這類活動(dòng)增加,可看作是攻擊的前兆,因而也是有趣的。



雖然“拒絕服務(wù)檢測(cè)”總是遭到嘲笑,從某種意義上來說,這種檢測(cè)是通過注意到恰好沒有任何服務(wù)來進(jìn)行的,但是系統(tǒng)管理員可能并沒有監(jiān)控所有系統(tǒng)的正常運(yùn)行,這就是系統(tǒng)崩潰的主要原因。
以上列舉了一些希望通過挖掘日志發(fā)現(xiàn)的有趣事實(shí)。對(duì)計(jì)算機(jī)而言,“有趣”的準(zhǔn)則很難定義,但用日志數(shù)據(jù)挖掘可做到,其典型應(yīng)用如下。
(1)探查:網(wǎng)絡(luò)探查和掃描總是在發(fā)生,用戶越來越能預(yù)料到它們。用戶應(yīng)該了解探查,但是不可能花費(fèi)資源去尋找它們。與此同時(shí),這類探查數(shù)量上的變化更可能成為有趣的信息。
(2)如果安全架構(gòu)很穩(wěn)固,就能夠預(yù)期到失敗的攻擊;這些攻擊的發(fā)生有各種原因。與探查類似,用戶應(yīng)該了解它們,但是不會(huì)花費(fèi)資源去尋找它們。
(3)正常消息:日志充滿了表明某些例行過程完成和其他完全正常的事件的消息,這些記錄是用于審計(jì)和其他目的的,它們明顯不出人意料,信息安全管理者也不會(huì)去挖掘它們。但是,變化仍然很重要。常規(guī)的消息停止出現(xiàn),或者開始表現(xiàn)出較高或者較低的頻率,這可能令人感興趣。
(4)被阻止的攻擊:這與失敗的攻擊類似,如果用戶的安全措施阻止了攻擊,即使這種攻擊是沒有想到的有趣攻擊,也不需要立刻采取行動(dòng)。
(5)系統(tǒng)狀態(tài)更新:類似于正常事件,這些事件無法訴諸行動(dòng)。同時(shí),系統(tǒng)狀態(tài)更新在某些不尋常的時(shí)候發(fā)生可能很令人感興趣。
5.日志數(shù)據(jù)挖掘的具體應(yīng)用
        日志數(shù)據(jù)挖掘主要有如下9個(gè)方面的應(yīng)用[4]。
(1)罕見的事物:由于某種原因,這并不常發(fā)生。如果發(fā)現(xiàn)以前沒有發(fā)生過的事件,它很可能是惡意的。因此,罕見事件是挖掘的主要候選。罕見的攻擊、罕見的系統(tǒng)消息以及幾乎從不登錄的用戶,都是值得檢測(cè)的。
(2)不同的事物:雖然不提倡“日志恐懼癥”,但是應(yīng)該注意和以往不同的事物。這是數(shù)據(jù)挖掘的基本方法起作用的地方。
(3)不相稱的事物:雖然與上一類緊密相關(guān),但表現(xiàn)得“不相稱”的日志記錄必須加以挖掘,因?yàn)樗鼈兛赡馨腥さ男畔ⅰ?/span>
(4)古怪的事物:如果某些事物顯得古怪,可能是出現(xiàn)麻煩的象征。這與上面兩個(gè)類別有微妙的差別。要了解古怪的事情,如DNS系統(tǒng)連接到packetstorm.com,自動(dòng)下載攻擊工具,不需要任何基線和預(yù)先的數(shù)據(jù)收集工作。
(5)向不尋常的方法發(fā)展的事物:分析人員和管理員可能發(fā)現(xiàn),有些日志記錄完全改變了正常的通信方向。正如上例中所看到的,到服務(wù)器的連接完全合法,即使使用的是無害的端口,如TCP端口80,服務(wù)器向外連接也應(yīng)該引起重視。
(6)最常見的事物:雖然屬于總結(jié)和報(bào)告的范疇,嚴(yán)格說不屬于數(shù)據(jù)挖掘,但是“x大事件”對(duì)于尋找有趣的日志記錄及其模式仍然有用。畢竟,如果排名有所上升,例如傳輸帶寬最主要用途,它仍然是有趣的。
(7)最不常見的事物:類似于罕見事務(wù),簡(jiǎn)單地說,“發(fā)生次數(shù)最少的事情”,這是“x大事件”的“邪惡姐妹”,甚至比前者更有用。最不吸引人的系統(tǒng)往往成為未來攻擊和破壞的跳板。
(8)無趣事物的奇怪組合:這粗略地遵循下面的公式:“善”+“善”=“邪惡”。是的,一組完全正常的日志記錄也可能組成危險(xiǎn)的事件。最簡(jiǎn)單的實(shí)例是端口掃描,它看上去只是一組往往數(shù)量很大但無害的連接請(qǐng)求。
(9)其他無趣事物的統(tǒng)計(jì):某些無趣事物的計(jì)數(shù)可能令人感興趣。而且,這種計(jì)數(shù)的變化往往更加重要。ICMP“ping”數(shù)據(jù)包的突然增多可能意味著拒絕服務(wù),尤其是這種ICMP洪泛在沒有預(yù)警的情況下突然發(fā)生時(shí)。
以下列舉一個(gè)典型應(yīng)用來說明。假設(shè)發(fā)現(xiàn)了一個(gè)黑客事故,該事故涉及漏洞掃描器的授權(quán)使用。大部分公司都部署網(wǎng)絡(luò)IDS,但是許多公司并不理解采購(gòu)這些設(shè)備的價(jià)值。這種情況發(fā)生的原因包括日志中的大量假陽性,它們削弱了人們對(duì)這些系統(tǒng)的信任?;?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征的系統(tǒng)為了實(shí)現(xiàn)NIDS的價(jià)值,可以使用日志挖掘方法,旨在從常規(guī)的噪聲和假警告中標(biāo)記出真正的攻擊。注意,在這種情況下可能并不知道攻擊是否成功,只要了解攻擊者的存在和重點(diǎn),并將攻擊與錯(cuò)誤觸發(fā)IDS的無害事件區(qū)分開來即可。
當(dāng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施組件[5]或者被誤用的檢測(cè)系統(tǒng)記錄合法連接時(shí),它們通常會(huì)在日志中生成少數(shù)特殊的事件類型。例如,通過防火墻的連接生成一個(gè)連接消息。即使掃描防火墻也可能為每個(gè)連接會(huì)話生成一個(gè)事件,以及一個(gè)用于整個(gè)掃描的事件類型。類似地,“假陽性”通常不與同一批主機(jī)之間的其他可疑活動(dòng)相關(guān),例如偵察性掃描或者其他攻擊。相反,假警告更可能會(huì)發(fā)生或者以大量互不相關(guān)的同類日志記錄類型的形式出現(xiàn)。這里,所指的“會(huì)話”是如下要素的獨(dú)特組合:源、目標(biāo)、協(xié)議、源端口和目標(biāo)端口。
因此,如果按照會(huì)話組織數(shù)據(jù)庫中收集的事件,并記錄每個(gè)會(huì)話中特殊事件的數(shù)量,往往與攻擊類型的數(shù)據(jù)相同,就有辦法區(qū)分真正的攻擊和合法流量及假警報(bào)。這種日志挖掘方法使用一種通用模式,以獲得潛在破壞性攻擊的證據(jù)及結(jié)果,但不能找出攻擊成功的標(biāo)志,只是對(duì)其真假進(jìn)行鑒定。
6.結(jié)論
       數(shù)據(jù)挖掘對(duì)日志分析非常實(shí)用,日志數(shù)據(jù)挖掘[6]是審核日志數(shù)據(jù)的一種新穎方法,在實(shí)際工作中非常有效。許多日志類型可從某種挖掘中獲得更有用的結(jié)果。雖然數(shù)據(jù)挖掘是一個(gè)復(fù)雜的領(lǐng)域,但針對(duì)日志進(jìn)行的數(shù)據(jù)挖掘并不十分困難,可在許多環(huán)境中實(shí)現(xiàn)。尤其在需要高技能分析人員和很長(zhǎng)時(shí)間的常見分析無效時(shí),日志數(shù)據(jù)挖掘能夠提供更多幫助。其對(duì)企事業(yè)單位加強(qiáng)其網(wǎng)站的信息安全[7]會(huì)具有很大的幫助。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }