
SPSS數(shù)據(jù)準(zhǔn)備:標(biāo)識異常個(gè)案
一、標(biāo)識異常個(gè)案(數(shù)據(jù)-標(biāo)識異常個(gè)案)
“異常檢測”過程查找基于聚類組標(biāo)準(zhǔn)值偏差的異常個(gè)案。該過程設(shè)計(jì)為在探索性數(shù)據(jù)分析步驟中,快速檢測到用于數(shù)據(jù)審核的異常個(gè)案,并優(yōu)先于任何推論性數(shù)據(jù)分析。此算法設(shè)計(jì)為一般“異常檢測”;即異常個(gè)案的定義不被指定為任何特定應(yīng)用程序,例如對保健行業(yè)中異常付款模式的檢測或?qū)鹑跇I(yè)中洗錢行為的檢測,其中對異常的定義可以被很好地界定。
示例。雇用的構(gòu)建中風(fēng)治療效果預(yù)測模型的數(shù)據(jù)分析人員對數(shù)據(jù)質(zhì)量非常關(guān)注,因?yàn)檫@類模型對異常觀察值十分敏感。某些偏離的觀察值表示真正唯一的個(gè)案,因此不適合用于預(yù)測,而其他觀察值是由數(shù)據(jù)輸入錯(cuò)誤導(dǎo)致的,其值從技術(shù)上說是“正確”的,因此不能被數(shù)據(jù)驗(yàn)證過程捕獲?!皹?biāo)識異常個(gè)案”過程找出并報(bào)告這些離群值,以便分析人員能夠確定如何處理這些值。
統(tǒng)計(jì)量。該過程生成對等組、連續(xù)和分類變量的對等組標(biāo)準(zhǔn)值、基于對等組標(biāo)準(zhǔn)值偏差的異常指標(biāo),以及對被視為異常的個(gè)案影響最大的變量影響值。
數(shù)據(jù)。此過程既處理連續(xù)變量也處理分類變量。每行表示一個(gè)不同觀察值,每列表示一個(gè)對等組以其為基礎(chǔ)的不同變量。個(gè)案標(biāo)識變量可在用于標(biāo)記輸出的數(shù)據(jù)文件中獲得,但不能用于分析中。允許缺失值。被指定的權(quán)重變量可以忽略。檢測模型可用于新檢驗(yàn)數(shù)據(jù)文件。檢驗(yàn)數(shù)據(jù)元素必須與培訓(xùn)數(shù)據(jù)元素一致。并且,根據(jù)算法設(shè)置,用于創(chuàng)建模型的缺失值處理方法可適用于優(yōu)先于評分的檢驗(yàn)數(shù)據(jù)文件。
個(gè)案順序。注意,解決方案可取決于個(gè)案順序。要使順序的影響降至最低程度,可隨機(jī)排列個(gè)案的順序。想要驗(yàn)證給定解的穩(wěn)定性,您可能想要通過以不同隨機(jī)順序排序的案例來得到多個(gè)不同的解。在文件非常大的情況,可使用以不同隨機(jī)順序排序的個(gè)案樣本運(yùn)行多次。
假設(shè)。算法假設(shè)所有變量都為不恒定且獨(dú)立的,并且沒有個(gè)案具有含有任何輸入變量的缺失值。假設(shè)每個(gè)連續(xù)變量具有正態(tài)(高斯)分布,假設(shè)每個(gè)分類變量具有多項(xiàng)分布。經(jīng)驗(yàn)內(nèi)部檢驗(yàn)表明,該過程對于違反獨(dú)立性假設(shè)和分布假設(shè)均相當(dāng)穩(wěn)健,但應(yīng)了解這些假設(shè)符合的程度。
二、輸出(數(shù)據(jù)-標(biāo)識異常個(gè)案-輸出)
1、對等組標(biāo)準(zhǔn)值。此選項(xiàng)顯示連續(xù)變量標(biāo)準(zhǔn)值表(如果分析中使用了任何連續(xù)變量)以及分類變量標(biāo)準(zhǔn)值表(如果分析中使用了任何分類變量)。連續(xù)變量標(biāo)準(zhǔn)值表顯示每個(gè)對等組的每個(gè)連續(xù)變量的均值和標(biāo)準(zhǔn)差。分類變量標(biāo)準(zhǔn)值表顯示每個(gè)對等組的每個(gè)分類變量的眾數(shù)(最大類別)、頻率和頻率百分比。連續(xù)變量的均值和分類變量的眾數(shù)在分析中用作標(biāo)準(zhǔn)值。
2、異常指標(biāo)。異常指標(biāo)摘要顯示標(biāo)識為最不正常個(gè)案的異常指標(biāo)的描述統(tǒng)計(jì)。
3、按分析變量列出出現(xiàn)的原因。對于每個(gè)原因,該表將每個(gè)變量的出現(xiàn)頻率和頻率百分比顯示為原因。該表還報(bào)告每個(gè)變量的影響的描述統(tǒng)計(jì)。如果在“選項(xiàng)”選項(xiàng)卡上將最大的原因數(shù)量設(shè)置為0,則此選項(xiàng)不可用。
4、已處理的個(gè)案數(shù)。個(gè)案處理摘要顯示活動數(shù)據(jù)集中所有個(gè)案的計(jì)數(shù)和計(jì)數(shù)百分比、分析中包含和排除的個(gè)案,以及每個(gè)對等組中的個(gè)案。
三、保存(數(shù)據(jù)-標(biāo)識異常個(gè)案-保存)
1、異常指標(biāo)。將每個(gè)個(gè)案的異常指標(biāo)值保存到具有指定名稱的變量中。
2、對等組。將對等組ID、個(gè)案計(jì)數(shù)以及每個(gè)個(gè)案的以百分比表示的大小保存到具有指定根名稱的變量中。例如,如果指定了根名稱Peer,則會生成變量Peerid、PeerSize和PeerPctSize。Peerid為個(gè)案的對等組ID,PeerSize為組的大小,而PeerPctSize為用百分比表示的組大小。
3、原因。使用指定的根名稱保存原因變量集。原因變量集包含作為原因的變量的名稱、變量影響度量、變量自身的值以及標(biāo)準(zhǔn)值。變量集的數(shù)量取決于在“選項(xiàng)”選項(xiàng)卡上請求的原因的數(shù)目。例如,如果指定根名稱Reason,則會生成變量ReasonVar_k、ReasonMeasure_k、ReasonValue_k和ReasonNorm_k,其中k是第k個(gè)原因。如果原因數(shù)量設(shè)置為0,則此選項(xiàng)不可用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03