
數(shù)據(jù)挖掘150道試題 測測你的專業(yè)能力過關嗎
大數(shù)據(jù)技術Hadoop面試題,看看你能答對多少?答案在后面
單選題
1. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)
A. 關聯(lián)規(guī)則發(fā)現(xiàn)
B. 聚類
C. 分類
D. 自然語言處理
2. 以下兩種描述分別對應哪兩種對分類算法的評價標準? (A)
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC
3. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?(C)
A. 頻繁模式挖掘
B. 分類和預測
C. 數(shù)據(jù)預處理
D. 數(shù)據(jù)流挖掘
4. 當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B)
A. 分類
B. 聚類
C. 關聯(lián)分析
D. 隱馬爾可夫鏈
5. 什么是KDD? (A)
A. 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
B. 領域知識發(fā)現(xiàn)
C. 文檔知識發(fā)現(xiàn)
D. 動態(tài)知識發(fā)現(xiàn)
6. 使用交互式的和可視化的技術,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務?(A)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預測建模
D. 尋找模式和規(guī)則
7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務?(B)
A. 探索性數(shù)據(jù)分析
B. 建模描述
C. 預測建模
D. 尋找模式和規(guī)則
8. 建立一個模型,通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務?(C)
A. 根據(jù)內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規(guī)則
9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務?(A)
A. 根據(jù)內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規(guī)則
11.下面哪種不屬于數(shù)據(jù)預處理的方法? (D)
A變量代換
B離散化
C聚集
D估計遺漏值
12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)
A 第一個
B 第二個
C 第三個
D 第四個
13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里? (A)
A 第一個
B 第二個
C 第三個
D 第四個
14.下面哪個不屬于數(shù)據(jù)的屬性類型:(D)
A 標稱
B 序數(shù)
C 區(qū)間
D相異
15. 在上題中,屬于定量的屬性類型是:(C)
A 標稱
B 序數(shù)
C 區(qū)間
D 相異
16. 只有非零值才重要的二元屬性被稱作:( C )
A 計數(shù)屬性
B 離散屬性
C非對稱的二元屬性
D 對稱屬性
17. 以下哪種方法不屬于特征選擇的標準方法: (D)
A 嵌入
B 過濾
C 包裝
D 抽樣
18.下面不屬于創(chuàng)建新屬性的相關方法的是: (B)
A特征提取
B特征修改
C映射數(shù)據(jù)到新的空間
D特征構造
19. 考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是 (C)
A 2
B 3
C 3.5
D 5
20. 下面哪個屬于映射數(shù)據(jù)到新的空間的方法? (A)
A 傅立葉變換
B 特征加權
C 漸進抽樣
D 維歸約
21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特
22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)
A 0.821
B 1.224
C 1.458
D 0.716
23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子
值為:(A)
A 18.3
B 22.6
C 26.8
D 27.9
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數(shù)極差是:(A)
A 31
B 24
C 55
D 3
25. 一所大學內的各年紀人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是: (A)
A 一年級
B二年級
C 三年級
D 四年級
26. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術: (B)
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場圖
27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: (D)
A 有放回的簡單隨機抽樣
B 無放回的簡單隨機抽樣
C 分層抽樣
D 漸進抽樣
28. 數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是 (C)
A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容;
B. 捕捉到的新數(shù)據(jù)會覆蓋原來的快照;
C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內容;
D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.
29. 關于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)
A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結構相關的信息;
B. 基本元數(shù)據(jù)包括與企業(yè)相關的管理方面的數(shù)據(jù)和信息;
C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調度信息;
D. 基本元數(shù)據(jù)包括關于裝載和更新處理,分析處理以及管理方面的信息.
30. 下面關于數(shù)據(jù)粒度的描述不正確的是: (C)
A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;
B. 數(shù)據(jù)越詳細,粒度就越小,級別也就越高;
C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質量.
31. 有關數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是: (A)
A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);
B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;
C. 數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);
D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式
32. 在有關數(shù)據(jù)倉庫測試,下列說法不正確的是: (D)
A. 在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.
B. 當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試.
C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.
D. 在測試之前沒必要制定詳細的測試計劃.
33. OLAP技術的核心是: (D)
A. 在線性;
B. 對用戶的快速響應;
C. 互操作性.
D. 多維分析;
34. 關于OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
35. 關于OLAP和OLTP的區(qū)別描述,不正確的是: (C)
A. OLAP主要是關于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應用程序不同.
B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.
C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.
D. OLAP是以數(shù)據(jù)倉庫為基礎的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.
36. OLAM技術一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”,下面說法正確的是: (D)
A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性;
B. 由于OLAM的立方體和用于OLAP的立方體有本質的區(qū)別.
C. 基于WEB的OLAM是WEB技術與OLAM技術的結合.
D. OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.
37. 關于OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務量大,但事務內容比較簡單且重復率高.
B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應用為核心,是應用驅動的.
38. 設X={1,2,3}是頻繁項集,則可由X產生__(C)__個關聯(lián)規(guī)則。
A、4
B、5
C、6
D、7
40. 概念分層圖是__(B)__圖。
A、無向無環(huán)
B、有向無環(huán)
C、有向有環(huán)
D、無向有環(huán)
41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C)
A、頻繁項集 頻繁閉項集 =最大頻繁項集
B、頻繁項集 = 頻繁閉項集 最大頻繁項集
C、頻繁項集 頻繁閉項集 最大頻繁項集
D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集
42. 考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產生過程得到4-項集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
43.下面選項中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
44. 在圖集合中發(fā)現(xiàn)一組公共子結構,這樣的任務稱為 ( B )
A、頻繁子集挖掘
B、頻繁子圖挖掘
C、頻繁數(shù)據(jù)項挖掘
D、頻繁模式挖掘
45. 下列度量不具有反演性的是 (D)
A、系數(shù)
B、幾率
C、Cohen度量
D、興趣因子
46. 下列__(A)__不是將主觀信息加入到模式發(fā)現(xiàn)任務中的方法。
A、與同一時期其他數(shù)據(jù)對比
B、可視化
C、基于模板的方法
D、主觀興趣度量
47. 下面購物籃能夠提取的3-項集的最大數(shù)量是多少(C)
ID 購買項
1 牛奶,啤酒,尿布
2 面包,黃油,牛奶
3 牛奶,尿布,餅干
4 面包,黃油,餅干
5 啤酒,餅干,尿布
6 牛奶,尿布,面包,黃油
7 面包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黃油
10 啤酒,餅干
A、1
B、2
C、3
D、4
48. 以下哪些算法是分類算法,(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM
49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, (A)
A,KNN
B,SVM
C,Bayes
D,神經網絡
50.決策樹中不包含一下哪種結點, (C)
A,根結點(root node)
B,內部結點(internal node)
C,外部結點(external node)
D,葉結點(leaf node)
51. 不純性度量中Gini計算公式為(其中c是類的個數(shù)) (A)
A, B, C, D, (A)
53. 以下哪項關于決策樹的說法是錯誤的 (C)
A. 冗余屬性不會對決策樹的準確率造成不利的影響
B. 子樹可能在決策樹中重復多次
C. 決策樹算法對于噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題
54. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)
A. 基于類的排序方案
B. 基于規(guī)則的排序方案
C. 基于度量的排序方案
D. 基于規(guī)格的排序方案。
55. 以下哪些算法是基于規(guī)則的分類器 (A)
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN
56. 如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);
A, 無序規(guī)則
B,窮舉規(guī)則
C, 互斥規(guī)則
D,有序規(guī)則
57. 如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)
A, 無序規(guī)則
B,窮舉規(guī)則
C, 互斥規(guī)則
D,有序規(guī)則
58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是 (D)
A, 無序規(guī)則
B,窮舉規(guī)則
C, 互斥規(guī)則
D,有序規(guī)則
59. 如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為(A)
A, 無序規(guī)則
B,窮舉規(guī)則
C, 互斥規(guī)則
D,有序規(guī)則
60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (C)
A,0.75
B,0.35
C,0.4678
D, 0.5738
61. 以下關于人工神經網絡(ANN)的描述錯誤的有 (A)
A,神經網絡對訓練數(shù)據(jù)中的噪聲非常魯棒
B,可以處理冗余特征
C,訓練ANN是一個很耗時的過程
D,至少含有一個隱藏層的多層神經網絡
62. 通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A)
A,組合(ensemble)
B,聚集(aggregate)
C,合并(combination)
D,投票(voting)
63. 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作( B )
A、層次聚類
B、劃分聚類
C、非互斥聚類
D、模糊聚類
64. 在基本K均值算法里,當鄰近度函數(shù)采用( A )的時候,合適的質心是簇中各點的中位數(shù)。
A、曼哈頓距離
B、平方歐幾里德距離
C、余弦距離
D、Bregman散度
65.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。
A、邊界點
B、質心
C、離群點
D、核心點
66. BIRCH是一種( B )。
A、分類器
B、聚類算法
C、關聯(lián)分析算法
D、特征選擇算法
67. 檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。
A、統(tǒng)計方法
B、鄰近度
C、密度
D、聚類技術
68.( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
69.( D )將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
70. DBSCAN在最壞情況下的時間復雜度是( B )。
A、O(m)
B、O(m2)
C、O(log m)
D、O(m*log m)
71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C),簇權值為mi ,那么它的類型是( C )。
A、基于圖的凝聚度
B、基于原型的凝聚度
C、基于原型的分離度
D、基于圖的凝聚度和分離度
72. 關于K均值和DBSCAN的比較,以下說法不正確的是( A )。
A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇。
73. 以下是哪一個聚類算法的算法流程:①構造k-最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。
A、MST
B、OPOSSUM
C、Chameleon
D、Jarvis-Patrick(JP)
74. 考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇( D )的相似度計算方法。
A、平方歐幾里德距離
B、余弦距離
C、直接相似度
D、共享最近鄰
75. 以下屬于可伸縮聚類算法的是( A )。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM
76. 以下哪個聚類算法不是屬于基于原型的聚類( D )。
A、模糊c均值
B、EM算法
C、SOM
D、CLIQUE
77. 關于混合模型聚類算法的優(yōu)缺點,下面說法正確的是( B )。
A、當簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理。
B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。
C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。
D、混合模型在有噪聲和離群點時不會存在問題。
78. 以下哪個聚類算法不屬于基于網格的聚類算法( D )。
A、STING
B、WaveCluster
C、MAFIA
D、BIRCH
79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于( C )的離群點定義。
A.概率
B、鄰近度
C、密度
D、聚類
80. 下面關于Jarvis-Patrick(JP)聚類算法的說法不正確的是( D )。
A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。
B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關對象的緊致簇。
C、JP聚類是基于SNN相似度的概念。
D、JP聚類的基本時間復雜度為O(m)。
二、 多選題
1. 通過數(shù)據(jù)挖掘過程所推倒出的關系和摘要經常被稱為:(A B)
A. 模型
B. 模式
C. 模范
D. 模具
2 尋找數(shù)據(jù)集中的關系是為了尋找精確、方便并且有價值地總結了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟? (A B C D)
A. 決定要使用的表示的特征和結構
B. 決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞
C. 選擇一個算法過程使評分函數(shù)最優(yōu)
D. 決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法。
3. 數(shù)據(jù)挖掘的預測建模任務主要包括哪幾大類問題? (A B)
A. 分類
B. 回歸
C. 模式發(fā)現(xiàn)
D. 模式匹配
4. 數(shù)據(jù)挖掘算法的組件包括:(A B C D)
A. 模型或模型結構
B. 評分函數(shù)
C. 優(yōu)化和搜索方法
D. 數(shù)據(jù)管理策略
5. 以下哪些學科和數(shù)據(jù)挖掘有密切聯(lián)系?(A D)
A. 統(tǒng)計
B. 計算機組成原理
C. 礦產挖掘
D. 人工智能
6. 在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有: (ABCDE)
A忽略元組
B使用屬性的平均值填充空缺值
C使用一個全局常量填充空缺值
D使用與給定元組屬同一類的所有樣本的平均值
E使用最可能的值填充空缺值
7.下面哪些屬于可視化高維數(shù)據(jù)技術 (ABCE)
A 矩陣
B 平行坐標系
C星形坐標 D散布圖
E Chernoff臉
8. 對于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有: (ABCDE)
A 不一致
B重復
C不完整
D 含噪聲
E 維度高
9.下列屬于不同的有序數(shù)據(jù)的有:(ABCE)
A 時序數(shù)據(jù)
B 序列數(shù)據(jù)
C時間序列數(shù)據(jù)
D事務數(shù)據(jù)
E空間數(shù)據(jù)
10.下面屬于數(shù)據(jù)集的一般特性的有:( B C D)
A 連續(xù)性
B 維度
C 稀疏性
D 分辨率
E 相異性
11. 下面屬于維歸約常用的線性代數(shù)技術的有: (A C)
A 主成分分析
B 特征提取
C 奇異值分解
D 特征加權
E 離散化
12. 下面列出的條目中,哪些是數(shù)據(jù)倉庫的基本特征: (ACD)
A. 數(shù)據(jù)倉庫是面向主題的
B. 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的
C. 數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的
D. 數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的
E. 數(shù)據(jù)倉庫是面向事務的
13. 以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有(BCDE )。
A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫
B.數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎
C.數(shù)據(jù)倉庫是面向業(yè)務的,支持聯(lián)機事務處理(OLTP)
D.數(shù)據(jù)倉庫支持決策而非事務處理
E.數(shù)據(jù)倉庫的主要目標就是幫助分析,做長期性的戰(zhàn)略制定
14. 數(shù)據(jù)倉庫在技術上的工作過程是: (ABCD)
A. 數(shù)據(jù)的抽取
B. 存儲和管理
C. 數(shù)據(jù)的表現(xiàn)
D. 數(shù)據(jù)倉庫設計
E. 數(shù)據(jù)的表現(xiàn)
15. 聯(lián)機分析處理包括以下哪些基本分析功能? (BCD)
A. 聚類
B. 切片
C. 轉軸
D. 切塊
E. 分類
16. 利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)
ID 項集
1 面包、牛奶
2 面包、尿布、啤酒、雞蛋
3 牛奶、尿布、啤酒、可樂
4 面包、牛奶、尿布、啤酒
5 面包、牛奶、尿布、可樂
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶
17. 下表是一個購物籃,假定支持度閾值為40%,其中__(A D)__是頻繁閉項集。
TID 項
1 abc
2 abcd
3 bce
4 acde
5 de
A、abc
B、ad
C、cd
D、de
18. Apriori算法的計算復雜度受__(ABCD)?__影響。
A、支持度閥值
B、項數(shù)(維度)
C、事務數(shù)
D、事務平均寬度
19. 非頻繁模式__(AD)__
A、其支持度小于閾值
B、都是不讓人感興趣的
C、包含負模式和負相關模式
D、對異常數(shù)據(jù)項敏感
20. 以下屬于分類器評價或比較尺度的有: (ACD)
A,預測準確度
B,召回率
C,模型描述的簡潔度
D,計算復雜度
21. 在評價不平衡類問題分類的度量方法有如下幾種,(ABCD)
A,F1度量
B,召回率(recall)
C,精度(precision)
D,真正率(ture positive rate,TPR)
22. 貝葉斯信念網絡(BBN)有如下哪些特點, (AB)
A,構造網絡費時費力
B,對模型的過分問題非常魯棒
C,貝葉斯網絡不適合處理不完整的數(shù)據(jù)
D,網絡結構確定后,添加變量相當麻煩
23. 如下哪些不是最近鄰分類器的特點, (C)
A,它使用具體的訓練實例進行預測,不必維護源自數(shù)據(jù)的模型
B,分類一個測試樣例開銷很大
C,最近鄰分類器基于全局信息進行預測
D,可以生產任意形狀的決策邊界
24. 如下那些不是基于規(guī)則分類器的特點,(AC)
A,規(guī)則集的表達能力遠不如決策樹好
B,基于規(guī)則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分
C,無法被用來產生更易于解釋的描述性模型
D,非常適合處理類分布不平衡的數(shù)據(jù)集
25. 以下屬于聚類算法的是( ABD )。
A、K均值
B、DBSCAN
C、Apriori
D、Jarvis-Patrick(JP)
26.( CD )都屬于簇有效性的監(jiān)督度量。
A、輪廓系數(shù)
B、共性分類相關系數(shù)
C、熵
D、F度量
27. 簇有效性的面向相似性的度量包括( BC )。
A、精度
B、Rand統(tǒng)計量
C、Jaccard系數(shù)
D、召回率
28.( ABCD )這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。
A、高維性
B、規(guī)模
C、稀疏性
D、噪聲和離群點
29. 在聚類分析當中,( AD )等技術可以處理任意形狀的簇。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Chameleon
30. ( AB )都屬于分裂的層次聚類算法。
A、二分K均值
B、MST
C、Chameleon
D、組平均
三、 判斷題
1. 數(shù)據(jù)挖掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預測數(shù)據(jù)等任務。 (對)
2. 數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經存在的數(shù)據(jù)進行模式的發(fā)掘。(對)3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)
4. 模式為對數(shù)據(jù)集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。(錯)
5. 尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。(錯)
6. 離群點可以是合法的數(shù)據(jù)對象或者值?! 。▽Γ?/span>
7. 離散屬性總是具有有限個值?! 。ㄥe)
8. 噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。 ?。ㄥe)
9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。 ?。▽Γ?/span>
10. 特征提取技術并不依賴于特定的領域?! 。ㄥe)
11. 序列數(shù)據(jù)沒有時間戳?! 。▽Γ?/span>
12. 定量屬性可以是整數(shù)值或者是連續(xù)值?! 。▽Γ?/span>
13. 可視化技術對于分析的數(shù)據(jù)類型通常不是專用性的?! 。ㄥe)
14. DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術的應用。(對)
15. OLAP技術側重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉換成輔助決策信息,是繼數(shù)據(jù)庫技術發(fā)展之后迅猛發(fā)展起來的一種新技術。 (對)
16. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設計上的主要區(qū)別在于:后者把結構強加于商務之上,一旦系統(tǒng)設計完畢,其程序和規(guī)則不會輕易改變;而前者則是一個學習型系統(tǒng),能自動適應商務不斷變化的要求。 (對)
17. 數(shù)據(jù)倉庫中間層OLAP服務器只能采用關系型OLAP (錯)
18.數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個部分. (錯)
19. Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息. (錯)
21. 關聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。(錯)
22. 利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數(shù)(對)。
23. 先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。(錯)
24. 如果規(guī)則 不滿足置信度閾值,則形如 的規(guī)則一定也不滿足置信度閾值,其中 是X的子集。(對)
25. 具有較高的支持度的項集具有較高的置信度。(錯)
26. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標記未知的對象類。 (錯)
27. 分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)
28. 對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結果沒有影響。 (對)
29. Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。 (錯)
30.分類模型的誤差大致分為兩種:訓練誤差(training error)和泛化誤差(generalization error). (對)
31. 在決策樹中,隨著樹中結點數(shù)變得太大,即使模型的訓練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。 (錯)
32. SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經常被稱為最小邊緣分類器(minimal margin classifier) (錯)
33. 在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。(錯)
34. 聚類分析可以看作是一種非監(jiān)督的分類。(對)
35. K均值是一種產生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯)
36. 給定由兩次運行K均值產生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優(yōu)。(錯)
37. 基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)域
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03