
數(shù)據(jù)挖掘150道試題 測(cè)測(cè)你的專業(yè)能力過關(guān)嗎_數(shù)據(jù)分析師培訓(xùn)
單選題
1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)
A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B. 聚類
C. 分類
D. 自然語言處理
2. 以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)? (A)
(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。
(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC
3. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C)
A. 頻繁模式挖掘
B. 分類和預(yù)測(cè)
C. 數(shù)據(jù)預(yù)處理
D. 數(shù)據(jù)流挖掘
4. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)
A. 分類
B. 聚類
C. 關(guān)聯(lián)分析
D. 隱馬爾可夫鏈
5. 什么是KDD? (A)
A. 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
B. 領(lǐng)域知識(shí)發(fā)現(xiàn)
C. 文檔知識(shí)發(fā)現(xiàn)
D. 動(dòng)態(tài)知識(shí)發(fā)現(xiàn)
6. 使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預(yù)測(cè)建模
D. 尋找模式和規(guī)則
7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預(yù)測(cè)建模
D. 尋找模式和規(guī)則
8. 建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)
A. 根據(jù)內(nèi)容檢索
B. 建模描述
C. 預(yù)測(cè)建模
D. 尋找模式和規(guī)則
9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)
A. 根據(jù)內(nèi)容檢索
B. 建模描述
C. 預(yù)測(cè)建模
D. 尋找模式和規(guī)則
11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)
A變量代換
B離散化
C聚集
D估計(jì)遺漏值
12. 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)? (B)
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
13.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里? (A)
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
14.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:(D)
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D相異
15. 在上題中,屬于定量的屬性類型是:(C)
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D 相異
16. 只有非零值才重要的二元屬性被稱作:( C )
A 計(jì)數(shù)屬性
B 離散屬性
C非對(duì)稱的二元屬性
D 對(duì)稱屬性
17. 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: (D)
A 嵌入
B 過濾
C 包裝
D 抽樣
18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)
A特征提取
B特征修改
C映射數(shù)據(jù)到新的空間
D特征構(gòu)造
19. 考慮值集{1、2、3、4、5、90},其截?cái)嗑担╬=20%)是 (C)
A 2
B 3
C 3.5
D 5
20. 下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法? (A)
A 傅立葉變換
B 特征加權(quán)
C 漸進(jìn)抽樣
D 維歸約
21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特
22. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:(D)
A 0.821
B 1.224
C 1.458
D 0.716
23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子
值為:(A)
A 18.3
B 22.6
C 26.8
D 27.9
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數(shù)極差是:(A)
A 31
B 24
C 55
D 3
25. 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是: (A)
A 一年級(jí)
B二年級(jí)
C 三年級(jí)
D 四年級(jí)
26. 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù): (B)
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場(chǎng)圖
27. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: (D)
A 有放回的簡(jiǎn)單隨機(jī)抽樣
B 無放回的簡(jiǎn)單隨機(jī)抽樣
C 分層抽樣
D 漸進(jìn)抽樣
28. 數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是 (C)
A. 數(shù)據(jù)倉庫隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;
B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照;
C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;
D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.
29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)
A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;
B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C. 基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;
D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.
30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)
A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別;
B. 數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高;
C. 數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高;
D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.
文章來源“CDA數(shù)據(jù)分析師官網(wǎng)
31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是: (A)
A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);
B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;
C. 數(shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā);
D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式
32. 在有關(guān)數(shù)據(jù)倉庫測(cè)試,下列說法不正確的是: (D)
A. 在完成數(shù)據(jù)倉庫的實(shí)施過程中,需要對(duì)數(shù)據(jù)倉庫進(jìn)行各種測(cè)試.測(cè)試工作中要包括單元測(cè)試和系統(tǒng)測(cè)試.
B. 當(dāng)數(shù)據(jù)倉庫的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試.
C. 系統(tǒng)的集成測(cè)試需要對(duì)數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試.
D. 在測(cè)試之前沒必要制定詳細(xì)的測(cè)試計(jì)劃.
33. OLAP技術(shù)的核心是: (D)
A. 在線性;
B. 對(duì)用戶的快速響應(yīng);
C. 互操作性.
D. 多維分析;
34. 關(guān)于OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)
A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.
B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù).
C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.
D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對(duì)的用戶是相同的.
36. OLAM技術(shù)一般簡(jiǎn)稱為”數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的是: (D)
A. OLAP和OLAM都基于客戶機(jī)/服務(wù)器模式,只有后者有與用戶的交互性;
B. 由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.
C. 基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.
D. OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對(duì)超級(jí)立方體作一定的操作.
37. 關(guān)于OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.
B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.
C. OLTP面對(duì)的是決策人員和高層管理人員.
D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的.
38. 設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生__(C)__個(gè)關(guān)聯(lián)規(guī)則。
A、4
B、5
C、6
D、7
40. 概念分層圖是__(B)__圖。
A、無向無環(huán)
B、有向無環(huán)
C、有向有環(huán)
D、無向有環(huán)
41. 頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是: (C)
A、頻繁項(xiàng)集 頻繁閉項(xiàng)集 =最大頻繁項(xiàng)集
B、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集
C、頻繁項(xiàng)集 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集
D、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 = 最大頻繁項(xiàng)集
42. 考慮下面的頻繁3-項(xiàng)集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過程得到4-項(xiàng)集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
43.下面選項(xiàng)中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )
A、頻繁子集挖掘
B、頻繁子圖挖掘
C、頻繁數(shù)據(jù)項(xiàng)挖掘
D、頻繁模式挖掘
45. 下列度量不具有反演性的是 (D)
A、系數(shù)
B、幾率
C、Cohen度量
D、興趣因子
46. 下列__(A)__不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。
A、與同一時(shí)期其他數(shù)據(jù)對(duì)比
B、可視化
C、基于模板的方法
D、主觀興趣度量
47. 下面購物籃能夠提取的3-項(xiàng)集的最大數(shù)量是多少(C)
ID 購買項(xiàng)
1 牛奶,啤酒,尿布
2 面包,黃油,牛奶
3 牛奶,尿布,餅干
4 面包,黃油,餅干
5 啤酒,餅干,尿布
6 牛奶,尿布,面包,黃油
7 面包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黃油
10 啤酒,餅干
A、1
B、2
C、3
D、4
48. 以下哪些算法是分類算法,(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM
49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, (A)
A,KNN
B,SVM
C,Bayes
D,神經(jīng)網(wǎng)絡(luò)
50. 決策樹中不包含一下哪種結(jié)點(diǎn), (C)
A,根結(jié)點(diǎn)(root node)
B,內(nèi)部結(jié)點(diǎn)(internal node)
C,外部結(jié)點(diǎn)(external node)
D,葉結(jié)點(diǎn)(leaf node)
51. 不純性度量中Gini計(jì)算公式為(其中c是類的個(gè)數(shù)) (A)
A, B, C, D, (A)
53. 以下哪項(xiàng)關(guān)于決策樹的說法是錯(cuò)誤的 (C)
A. 冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響
B. 子樹可能在決策樹中重復(fù)多次
C. 決策樹算法對(duì)于噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題
54. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序,保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)
A. 基于類的排序方案
B. 基于規(guī)則的排序方案
C. 基于度量的排序方案
D. 基于規(guī)格的排序方案。
55. 以下哪些算法是基于規(guī)則的分類器 (A)
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10