
基于大數(shù)據(jù)分析的異常檢測(cè)方法及其思路實(shí)例
1 概述
隨著人類社會(huì)信息化程度的不斷深入,信息系統(tǒng)產(chǎn)生的數(shù)據(jù)也在呈幾何級(jí)數(shù)增長(zhǎng)。對(duì)這些數(shù)據(jù)的深入分析可以得到很多有價(jià)值的信息。由于數(shù)據(jù)量太大以及數(shù)據(jù)屬性的多樣性,導(dǎo)致經(jīng)典的統(tǒng)計(jì)分析方法已經(jīng)無法適用,必須采用以機(jī)器學(xué)習(xí)理論為基礎(chǔ)的大數(shù)據(jù)分析方法。目前,大數(shù)據(jù)分析的方法已經(jīng)被廣泛用于商業(yè)智能(BI)領(lǐng)域,并取得了令人非常滿意的效果。這種方法同樣可以應(yīng)用在信息安全領(lǐng)域,用于發(fā)現(xiàn)信息系統(tǒng)的異常情況(入侵和攻擊、數(shù)據(jù)泄露等)。利用大數(shù)據(jù)分析的方法發(fā)現(xiàn)異常事件,需要滿足幾個(gè)條件:1)行為日志在內(nèi)容必須足夠詳細(xì),可以從日志內(nèi)容上區(qū)分正常行為和異常行為。也就是假定異常行為無論在表面上看多么正常,總是在細(xì)節(jié)上與正常行為有差異。2)針對(duì)不同的分析目標(biāo),選用恰當(dāng)?shù)姆治鏊惴ā?)對(duì)行為描述進(jìn)行合理的建模。
2 基于DNS日志分析的僵尸網(wǎng)絡(luò)檢測(cè)
2.1 DNS解析請(qǐng)求日志的格式及說明
不同的DNS系統(tǒng)及配置參數(shù),生成DNS解析請(qǐng)求日志也不盡相同,這里僅用一種日志加以說明。
1
|
Jul2210:59:59201307221059GSLZ-PS-DNS-SV07-YanT'17 75 1374461999.999790 1307221059218.203.160.194 53 218.203.199.90 5826 dns 0,0,4692,0|4|5 1 www.baidu.com, 1,11 www.baidu.com,1,1,3,111.11.184.114'
|
其中
其中,標(biāo)記位各種取值的含義如下:
QR是1個(gè)bit位:0代表查詢報(bào)文,1代表相應(yīng)報(bào)文
opcode是4個(gè)bit位字段:0代表標(biāo)準(zhǔn)查詢,1代表反向查詢,2代表服務(wù)器狀態(tài)請(qǐng)求
AA是1個(gè)bit位,是Authoritative Answer的縮寫,指明名字服務(wù)器是授權(quán)于該域的
TC是1個(gè)bit位,是Truncated的縮寫,意為可截?cái)嗟?,指明在UDP中應(yīng)答報(bào)文超過512字節(jié)時(shí),只返回512字節(jié)
RD是1個(gè)bit位,是Recursion Desired的縮寫,意為期望遞歸,期望名字服務(wù)器必須處理這個(gè)查詢,而不是給出一個(gè)迭代查詢服務(wù)器的列表
RA是1個(gè)bit位,是Recursion Available的縮寫,意為可用遞歸,如果名字服務(wù)器支持遞歸查詢,這會(huì)將此位設(shè)置為1
zero是3個(gè)bit位,設(shè)置為0
rcode是4個(gè)bit位,表示名字差錯(cuò),0為無差錯(cuò),3為有差錯(cuò)。當(dāng)查詢中指定的域不存在的時(shí)候,就返回3
響應(yīng)狀態(tài)
“NOERROR” => 0, 無錯(cuò)誤條件.
“FORMERR” => 1, 因?yàn)橐粋€(gè)格式錯(cuò)誤,域名服務(wù)器無法解釋這個(gè)請(qǐng)求
“SERVFAIL” => 2, 在處理這個(gè)請(qǐng)求時(shí)域名服務(wù)器遇到一個(gè)內(nèi)部錯(cuò)誤。例如操作系統(tǒng)錯(cuò)或轉(zhuǎn)發(fā)超時(shí)。
“NXDOMAIN” => 3, 某些域名應(yīng)該存在而沒有存在。
“NOTIMPL” => 4, 域名服務(wù)器不支持這種指定的 Opcode.
“REFUSED” => 5, 出于策略和安全原因域名服務(wù)器拒絕執(zhí)行特定的操作。
“YXDOMAIN” => 6, 某些域名不應(yīng)該存在但是存在。
“YXRRSET” => 7, 某些RRset不應(yīng)該存在但是存在。
“NXRRSET” => 8, 某些RRset應(yīng)該存在但是不存在。
“NOTAUTH” => 9, 域名服務(wù)器對(duì)區(qū)域名沒有被授權(quán)
“NOTZONE” => 10, 在預(yù)查詢或更新段中一個(gè)域名沒有在區(qū)域段中記錄。
2.2正常與異常DNS解析請(qǐng)求的對(duì)比分析
大多數(shù)僵尸主機(jī)在最初感染的惡意程序,只是一個(gè)下載器程序,真正能完成有害操作的惡意程序要從惡意程序分發(fā)服務(wù)器上下載。因此僵尸主機(jī)安裝下載器之后,首要的工作就是發(fā)起一系列域名解析請(qǐng)求,用來獲知惡意程序分發(fā)主機(jī)的IP地址以便完成惡意程序?qū)嶓w的下載。在完成實(shí)體惡意程序之后,僵尸主機(jī)還會(huì)發(fā)送域名查詢請(qǐng)求,以便獲知控制服務(wù)器的IP地址并與之建立聯(lián)系,等待控制服務(wù)器發(fā)送指令。為了避免分發(fā)服務(wù)器和控制服務(wù)器被網(wǎng)絡(luò)監(jiān)管人員發(fā)現(xiàn)并摧毀,僵尸網(wǎng)絡(luò)的控制者采用了很多技術(shù)手段對(duì)這兩類關(guān)鍵服務(wù)器進(jìn)行保護(hù),諸如動(dòng)態(tài)域名、Fast Flux技術(shù)等。還有一類DNS查詢請(qǐng)求本身就是僵尸主機(jī)發(fā)起的攻擊,其特征也與正常的查詢請(qǐng)求有很大區(qū)別。總之,僵尸主機(jī)會(huì)發(fā)送大量的域名查詢請(qǐng)求,而且這些請(qǐng)求與正常的域名請(qǐng)求在諸多屬性有明顯的差異。
表2-1異常查詢請(qǐng)求與正常查詢請(qǐng)求的差異對(duì)比
2.3 相似性分析的一般過程
由于正常的域名查詢請(qǐng)求占絕大部分,且彼此之間具有明顯的相似性,而僵尸主機(jī)的域名查詢請(qǐng)求日志則有明顯的差異,因此非常適合采用相似性分析的方法進(jìn)行區(qū)分。相似性分析的一般步驟是:1)確定被分析對(duì)象(源IP地址或域名)。2)確定分析的屬性。3)將屬性量化成可分析的數(shù)值。4)將數(shù)據(jù)寫入描述性矩陣。5)以描述性矩陣為輸入數(shù)據(jù),代入相似性計(jì)算公式,計(jì)算被分析對(duì)象的相似關(guān)系。
相似性分析通常把每個(gè)數(shù)據(jù)對(duì)象看作多維空間中的一個(gè)點(diǎn),對(duì)象之間的相似性可以用相似性系數(shù)或某種距離來表示。相似系數(shù)接近1或距離較近的對(duì)象性質(zhì)較相似,相似系數(shù)接近0或距離較遠(yuǎn)的對(duì)象則差異較大。不同的數(shù)據(jù)類型,適用不同的相似系數(shù)計(jì)算公式。常用的相似系數(shù)或距離計(jì)算公式有:
(2-1)
(2-2)
(2-3)
公式(2-1)是變量Xi和Xj 的空間距離計(jì)算公式。
公式(2-2)是相似系數(shù)計(jì)算公式。
公式(2-3)是Jaccard相似系數(shù)計(jì)算公式。通常杰卡德相似系數(shù)處理的都是非對(duì)稱二元變量。即假設(shè)A和B是兩個(gè)n 維向量,而且所有維度的取值都是0或1。非對(duì)稱的意思是指狀態(tài)的兩個(gè)輸出不是同等重要的,例如,疾病檢查的陽(yáng)性和陰性結(jié)果。其中:
M11 表示A 與B 的對(duì)應(yīng)維度都是1 的維度的個(gè)數(shù),
M10 表示A與B的對(duì)應(yīng)維度分別是1和0 的維度的個(gè)數(shù)
M01表示對(duì)應(yīng)維度分別是0和1 的維度的個(gè)數(shù)。
M00表示A與B的對(duì)應(yīng)維度都是0 的維度的個(gè)數(shù)。
習(xí)慣上將較重要的輸出結(jié)果也通常是出現(xiàn)幾率較小的結(jié)果編碼為1(例如HIV陽(yáng)性),而將另一種結(jié)果編碼為0。在某些領(lǐng)域,認(rèn)為正匹配(M11)比負(fù)匹配(M00)更有意義。負(fù)匹配的數(shù)量M00 認(rèn)為是不重要的,可以在計(jì)算時(shí)忽略。
在分析域名查詢?nèi)罩緯r(shí),可以把發(fā)送查詢請(qǐng)求的主機(jī)IP地址作為對(duì)象,也可以把被查詢的域名作為對(duì)象。可以針對(duì)某個(gè)屬性進(jìn)行分析,也可以針對(duì)一組屬性進(jìn)行分析。因此不同的對(duì)象和屬性組合在一起可以得到很多種描述性矩陣。下面以一個(gè)具體實(shí)例來說明相似性分析的過程。在這個(gè)實(shí)例中,以域名為對(duì)象,以域名被各IP地址查詢的次數(shù)作為屬性,可以得到一個(gè)描述性矩陣(如表2-2)。
表2-2域名請(qǐng)求行為描述矩陣
為簡(jiǎn)單起見,將描述矩陣的數(shù)值代入公式(2-2),可以計(jì)算出各個(gè)域名之間的“距離”,從而得到相似性矩陣(如表2-3)。觀察發(fā)現(xiàn),域名n與其它域名的相似度最低?;究梢耘卸ú樵冇蛎鹡的主機(jī)為僵尸主機(jī)。
表2-3域名請(qǐng)求行為的相似性分析結(jié)果
相似度分析的數(shù)據(jù)是一種對(duì)象-對(duì)象結(jié)構(gòu)的矩陣,既可以單純使用域名或IP地址作為對(duì)象,也可以同時(shí)使用IP地址和域名來構(gòu)建矩陣。
2.4聚類分析的一般過程
把每個(gè)域名解析請(qǐng)求的屬性作為一個(gè)變量,則這些屬性構(gòu)成一個(gè)多維向量,如表2-4,每一行是一個(gè)多維向量。對(duì)這些多維向量進(jìn)行聚類分析,可以發(fā)現(xiàn)那些游離于聚合之外的那些向量所對(duì)應(yīng)的域名,就是異常域名。這些域名解析請(qǐng)求很可能就是僵尸程序或WebShell發(fā)出的。可以考慮采用的屬性包括:域名長(zhǎng)度、域名相似性、TTL、域名層級(jí)數(shù)、請(qǐng)求發(fā)送時(shí)間間隔、請(qǐng)求源IP地址數(shù)、響應(yīng)狀態(tài)、域名對(duì)應(yīng)的IP地址數(shù)量、域名查詢類型。
表2-4域名屬性多維向量
可以考慮采用分區(qū)法或K-均值算法對(duì)域名屬性多維向量進(jìn)行聚類分析。由于異常域名的屬性值通常都與正常域名的屬性有明顯的差異,因此采用聚類方法通??梢垣@得較高的聚類質(zhì)量,將異常域名從正常域名的聚類中分離開來。
聚類分析的數(shù)據(jù)是一組對(duì)象-屬性結(jié)構(gòu)的多維向量,以域名為對(duì)象,以其查詢請(qǐng)求的屬性為屬性。
3 基于大數(shù)據(jù)分析的內(nèi)部異常行為檢測(cè)
3.1 內(nèi)部信息系統(tǒng)行為概述
業(yè)內(nèi)將內(nèi)部信息系統(tǒng)的行為(以下簡(jiǎn)稱內(nèi)部行為)分為主機(jī)(包括服務(wù)器和終端)行為和網(wǎng)絡(luò)行為兩大類:一是主機(jī)行為,即主機(jī)本地的行為,例如創(chuàng)建帳號(hào)、創(chuàng)建文件、修改注冊(cè)表、內(nèi)存屬性(讀寫、執(zhí)行)變化、進(jìn)程變化(啟動(dòng)、停止)等等。如果物理主機(jī)上運(yùn)行著多個(gè)虛擬主機(jī),主機(jī)行為還應(yīng)包括一些虛擬化系統(tǒng)的行為。二是網(wǎng)絡(luò)行為,即與網(wǎng)絡(luò)訪問相關(guān)的行為,例如域名解析請(qǐng)求、HTTP訪問請(qǐng)求、ARP廣播、收發(fā)郵件、即時(shí)消息、文件上傳和下載、數(shù)據(jù)庫(kù)訪問等等。
3.2 對(duì)內(nèi)部行為進(jìn)行大數(shù)據(jù)分析的原理基礎(chǔ)
早期的信息安全措施側(cè)重對(duì)外部攻擊的防護(hù),而對(duì)內(nèi)部的異常行為往往不夠重視也缺少檢測(cè)手段。大量信息安全實(shí)踐使得內(nèi)部異常行為檢測(cè)的重要性在業(yè)內(nèi)達(dá)成了共識(shí)。尤其是近年被披露的眾多APT攻擊事件,主要的攻擊過程是發(fā)生在內(nèi)部網(wǎng)絡(luò)和信息系統(tǒng)上。通常內(nèi)部異常行為都是非常隱蔽的,攻擊者會(huì)可以隱藏自己的攻擊行為,通常單個(gè)行為看上去都是正常的,但是一些行為關(guān)聯(lián)在一起以后,這種關(guān)聯(lián)的組合非常少,且行為主體不具有別的特殊性,則這種行為很可能是異常。或者某些內(nèi)部行為已經(jīng)被判定為異常,那么與之關(guān)聯(lián)的行為也是異常的概率就會(huì)大大增加。
3.3 關(guān)聯(lián)分析的一般過程
對(duì)內(nèi)部行為的分析也適用相似性分析,但為了避免重復(fù),這里采用關(guān)聯(lián)分析算法對(duì)內(nèi)部行為進(jìn)行分析,來舉例說明該方法的實(shí)際運(yùn)用。關(guān)聯(lián)分析的一般步驟是:1)以行為主體作為被分析對(duì)象(通常為IP地址或身份標(biāo)識(shí))對(duì)內(nèi)部行為日志進(jìn)行解析,將描述各種行為的異構(gòu)日志轉(zhuǎn)換成適合分析比較的行為鏈(如圖2-4所示)。2)將行為鏈數(shù)據(jù)代入關(guān)聯(lián)分析算法,計(jì)算出各種可能的關(guān)聯(lián)關(guān)系。3)根據(jù)一定的判斷規(guī)則,從計(jì)算出的多個(gè)關(guān)聯(lián)關(guān)系中找出異常行為的組合。
圖3-1 行為鏈的構(gòu)建
關(guān)聯(lián)分析的目標(biāo)是從數(shù)據(jù)中找到關(guān)聯(lián)規(guī)則。所謂關(guān)聯(lián)規(guī)則是形如 X → Y 的蘊(yùn)涵式,表示通過 X 可以推導(dǎo)“得到”Y,其中 X 和 Y 分別稱為關(guān)聯(lián)規(guī)則的前提和結(jié)果。在滿足最小支持度和最小置信度的條件下才能認(rèn)為“通過 X 可以推導(dǎo)‘得到’Y”成立。在理解算法之前,首先需要了解幾個(gè)基本概念:
支持度: 指的是事件X和事件Y同時(shí)發(fā)生的概率,即支持度=P(XY)
置信度: 指的是發(fā)生事件X的基礎(chǔ)上發(fā)生事件Y的概率,置信度= P(Y|X) = P(XY)/P(X)
項(xiàng)集: B={B1, B2,……, Bm}是項(xiàng)的集合。
行為鏈記錄庫(kù): D={t1, t2,……, tn}
行為鏈: 行為鏈t由多個(gè)項(xiàng)組成,t是B的非空子集
TID: 每一個(gè)行為鏈都與一個(gè)唯一的標(biāo)識(shí)符對(duì)應(yīng)。
頻繁項(xiàng)集:滿足最小支持度閾值的項(xiàng)集
為了更好的理解上面的概念,圖1-1給出了更形象的描述。圓角矩形表示全部項(xiàng)的集合I,橢圓中藍(lán)圓點(diǎn)表示X事件,菱形中綠三角表示Y事件。
圖3-2 關(guān)聯(lián)分析的幾個(gè)基本概念
表3-1內(nèi)部行為記錄庫(kù)
為敘述簡(jiǎn)單但又不失一般性,這里用9個(gè)行為主體和5種行為(記作B1~B5)組成的項(xiàng)集作為實(shí)例來說明關(guān)聯(lián)分析算法的原理。如表3-1,行為記錄庫(kù)中有9條行為鏈記錄,涉及了B1~B5等5種行為。有過某種行為,記作1,沒有記作0。首先掃描記錄庫(kù),得當(dāng)頻繁項(xiàng)集C1(表3-2)
表3-2頻繁項(xiàng)集C1
假設(shè)最小支持度要求為2,則所有頻繁項(xiàng)集都入選成為一階最大項(xiàng)集。以B1~B5的排列組合作為二階頻繁項(xiàng),掃描記錄庫(kù),得到二階頻繁項(xiàng)集C2(表3-3)
表3-3 二階頻繁項(xiàng)集C2
去掉支持度小于2的項(xiàng)集,得到二階最大項(xiàng)集L2(表3-4)
表3-4 二階最大項(xiàng)集L2
對(duì)L2的項(xiàng)集元素排列組合來生成三階的頻繁項(xiàng)集合,由于頻繁項(xiàng)集的子集也必須是頻繁的,所以要從劃去那些子集不頻繁的組合,最后只剩下兩個(gè)支持度大于2的最大頻繁項(xiàng)集{B1,B2,B3}和{B1,B2,B5}(表3-5)。
表3-5 滿足最小支持度的最大頻繁項(xiàng)集
對(duì)每個(gè)頻繁項(xiàng)集B生成其所有的非空真子集S(見表3-5),然后對(duì)每個(gè)非空真子集組合的關(guān)聯(lián)規(guī)則計(jì)算置信度,即支持度(B)/支持度(S),若比值大于假設(shè)的最小置信度值,則輸出S(B-S),即認(rèn)為S 與(B-S)關(guān)聯(lián)。
表3-5 頻繁項(xiàng)集的非空子集
至此我們得到了三個(gè)關(guān)聯(lián)規(guī)則,即{B1,B5}à{B2}、{B2,B5}à{B1}和{B1}à{B2,B5}。同樣對(duì)最大頻繁項(xiàng)集{B1,B2,B5}也進(jìn)行類似的計(jì)算,還可以得到相應(yīng)的一組關(guān)聯(lián)規(guī)則。
3.4關(guān)聯(lián)分析方法應(yīng)用舉例
一個(gè)信息系統(tǒng)中,正常訪問行為應(yīng)該是絕大多數(shù),因此異常行為的占比非常低,所以在關(guān)聯(lián)分析的算法中,我們對(duì)支持度的要求不是大于某個(gè)數(shù)值,而是大于0且小于某個(gè)數(shù)值。
例如,一個(gè)普通的客戶端主機(jī)對(duì)其它IP地址的掃描顯然是一種異常行為,如果利用關(guān)聯(lián)分析的方法,發(fā)現(xiàn)這些有掃描行為的主機(jī)都查詢過相同或高度相似的域名,那么這個(gè)域名查詢請(qǐng)求也是一種異常行為,很可能是終端主機(jī)感染木馬程序后的回聯(lián)行為。
再例如,一個(gè)普通的客戶端主機(jī)存在高頻并發(fā)域名查詢的行為,如果利用關(guān)聯(lián)分析的方法,發(fā)現(xiàn)這些終端的主機(jī)的系統(tǒng)函數(shù)調(diào)用行為特征非常接近,或者這些終端主機(jī)都有訪問本地敏感文件(密碼文件、配置文件等)的行為。則這些系統(tǒng)函數(shù)調(diào)用或本地敏感文件訪問也是異常行為。
4 結(jié)束語(yǔ)
基于互聯(lián)網(wǎng)的B/S架構(gòu)的信息系統(tǒng)在運(yùn)行過程中會(huì)產(chǎn)生大量各種類型的日志,如安全設(shè)備告警、操作系統(tǒng)日志、數(shù)據(jù)庫(kù)日志、終端行為日志、網(wǎng)絡(luò)流量日志、Web訪問日志、DNS請(qǐng)求日志、外網(wǎng)訪問日志等等。這些日志具有豐富的信息,只要采用恰當(dāng)?shù)姆治鏊惴?,一定可以獲得很有價(jià)值的分析結(jié)果。除了本文描述的兩個(gè)應(yīng)用場(chǎng)景以外,大數(shù)據(jù)分析還可以用于拒絕服務(wù)攻擊檢測(cè)、安全情報(bào)分析、態(tài)勢(shì)感知、網(wǎng)頁(yè)篡改發(fā)現(xiàn)、應(yīng)用層攻擊檢測(cè)、惡意文件檢測(cè)等安全分析的場(chǎng)景。
成功的大數(shù)據(jù)分析依賴于三個(gè)主要因素:數(shù)據(jù)、思路和算法。面向安全的大數(shù)據(jù)分析所使用的數(shù)據(jù)主要是各種系統(tǒng)日志和行為。本文試圖用比較接近實(shí)際的案例來介紹面向安全的大數(shù)據(jù)分析思路??晒?a href='/map/dashujufenxi/' style='color:#000;font-size:inherit;'>大數(shù)據(jù)分析使用的算法有很多,但不是都適用于面向安全的應(yīng)用場(chǎng)景。原因是系統(tǒng)日志和行為日志都屬于低維度數(shù)據(jù),面向高維度數(shù)據(jù)的算法基本不適用。因此只有相似性分析、關(guān)聯(lián)分析、聚類等。分類算法在有足夠訓(xùn)練數(shù)據(jù)的情況下也可以使用,但通常訓(xùn)練數(shù)據(jù)比較難獲得,所以使用分類算法可能會(huì)受一定限制。
除了分析算法以外,可視化也是一種非常重要且有效的分析手段??梢暬瓤梢宰鳛榉治龉ぞ?,直接以圖形方式呈現(xiàn)數(shù)據(jù)之間的關(guān)系,提高數(shù)據(jù)可讀性,又可以作為分析結(jié)果的呈現(xiàn)工具,使分析結(jié)果更加直觀。受篇幅的限制,本文沒有對(duì)可視化呈現(xiàn)給出描述,希望后續(xù)有機(jī)會(huì)做出補(bǔ)充。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10