
數(shù)據(jù)挖掘七十八道選擇題
《數(shù)據(jù)分析專項(xiàng)練習(xí)題庫》
《CDA數(shù)據(jù)分析認(rèn)證考試模擬題庫》
《企業(yè)數(shù)據(jù)分析面試題庫》
1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)
A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B. 聚類
C. 分類
D. 自然語言處理
2. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價(jià)標(biāo)準(zhǔn)? (A)
(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。
(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC
3. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C)
A. 頻繁模式挖掘
B. 分類和預(yù)測
C. 數(shù)據(jù)預(yù)處理
D. 數(shù)據(jù)流挖掘
4. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)
A. 分類
B. 聚類
C. 關(guān)聯(lián)分析
D. 隱馬爾可夫鏈
5. 什么是KDD? (A)
A. 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
B. 領(lǐng)域知識發(fā)現(xiàn)
C. 文檔知識發(fā)現(xiàn)
D. 動(dòng)態(tài)知識發(fā)現(xiàn)
6. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預(yù)測建模
D. 尋找模式和規(guī)則
7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預(yù)測建模
D. 尋找模式和規(guī)則
8. 建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來預(yù)測其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)
A. 根據(jù)內(nèi)容檢索
B. 建模描述
C. 預(yù)測建模
D. 尋找模式和規(guī)則
9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)
A. 根據(jù)內(nèi)容檢索
B. 建模描述
C. 預(yù)測建模
D. 尋找模式和規(guī)則
11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)
A變量代換
B離散化
C聚集
D估計(jì)遺漏值
12. 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)? (B)
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
13.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里? (A)
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
14.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:(D)
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D相異
15. 在上題中,屬于定量的屬性類型是:(C)
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D 相異
16. 只有非零值才重要的二元屬性被稱作:( C )
A 計(jì)數(shù)屬性
B 離散屬性
C非對稱的二元屬性
D 對稱屬性
17. 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: (D)
A 嵌入
B 過濾
C 包裝
D 抽樣
18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)
A特征提取
B特征修改
C映射數(shù)據(jù)到新的空間
D特征構(gòu)造
19. 考慮值集{1、2、3、4、5、90},其截?cái)嗑担╬=20%)是 (C)
A 2
B 3
C 3.5
D 5
20. 下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法? (A)
A 傅立葉變換
B 特征加權(quán)
C 漸進(jìn)抽樣
D 維歸約
21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特
22. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)
A 0.821
B 1.224
C 1.458
D 0.716
23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:(A)
A 18.3
B 22.6
C 26.8
D 27.9
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數(shù)極差是:(A)
A 31
B 24
C 55
D 3
25. 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是: (A)
A 一年級
B二年級
C 三年級
D 四年級
26. 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù): (B)
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場圖
27. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: (D)
A 有放回的簡單隨機(jī)抽樣
B 無放回的簡單隨機(jī)抽樣
C 分層抽樣
D 漸進(jìn)抽樣
28. 數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是 (C)
A. 數(shù)據(jù)倉庫隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;
B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照;
C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;
D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.
29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)
A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;
B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時(shí)序調(diào)度信息;
D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.
30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)
A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別;
B. 數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高;
C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.
31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是: (A)
A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);
B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;
C. 數(shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā);
D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式
32. 在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是: (D)
A. 在完成數(shù)據(jù)倉庫的實(shí)施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.
B. 當(dāng)數(shù)據(jù)倉庫的每個(gè)單獨(dú)組件完成后,就需要對他們進(jìn)行單元測試.
C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試和回歸測試.
D. 在測試之前沒必要制定詳細(xì)的測試計(jì)劃.
33. OLAP技術(shù)的核心是: (D)
A. 在線性;
B. 對用戶的快速響應(yīng);
C. 互操作性.
D. 多維分析;
34. 關(guān)于OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)
A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.
B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).
C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.
D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.
36. OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的是: (D)
A. OLAP和OLAM都基于客戶機(jī)/服務(wù)器模式,只有后者有與用戶的交互性;
B. 由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.
C. 基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.
D. OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.
37. 關(guān)于OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.
B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的.
38. 設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生__(C)__個(gè)關(guān)聯(lián)規(guī)則。
A、4
B、5
C、6
D、7
40. 概念分層圖是__(B)__圖。
A、無向無環(huán)
B、有向無環(huán)
C、有向有環(huán)
D、無向有環(huán)
41. 頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是: (C)
A、頻繁項(xiàng)集 頻繁閉項(xiàng)集 =最大頻繁項(xiàng)集
B、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集
C、頻繁項(xiàng)集 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集
D、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 = 最大頻繁項(xiàng)集
42. 考慮下面的頻繁3-項(xiàng)集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過程得到4-項(xiàng)集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
43.下面選項(xiàng)中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )
A、頻繁子集挖掘
B、頻繁子圖挖掘
C、頻繁數(shù)據(jù)項(xiàng)挖掘
D、頻繁模式挖掘
45. 下列度量不具有反演性的是 (D)
A、系數(shù)
B、幾率
C、Cohen度量
D、興趣因子
46. 下列__(A)__不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。
A、與同一時(shí)期其他數(shù)據(jù)對比
B、可視化
C、基于模板的方法
D、主觀興趣度量
47. 下面購物籃能夠提取的3-項(xiàng)集的最大數(shù)量是多少(C)
ID 購買項(xiàng)
1 牛奶,啤酒,尿布
2 面包,黃油,牛奶
3 牛奶,尿布,餅干
4 面包,黃油,餅干
5 啤酒,餅干,尿布
6 牛奶,
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10