
2017校招數(shù)據(jù)分析崗位筆試/面試知識點
2017校招正在火熱的進(jìn)行,后面會不斷更新涉及到的相關(guān)知識點。盡管聽說今年幾個大互聯(lián)網(wǎng)公司招的人超少,但好像哪一年都說是就業(yè)困難,能夠進(jìn)去當(dāng)然最好,不能進(jìn)去是不是應(yīng)該也抱著好的期望去找自己滿意的呢?最近筆試了很多家公司校招的數(shù)據(jù)分析和數(shù)據(jù)挖掘崗位,今天(9.18r)晚上做完唯品會的筆試題,才忽然意識過來,不管題目簡單也好、難也好,都要去切切實實的去掌握。畢竟不能永遠(yuǎn)眼高手低,否則最后吃虧的一定是自己。
知識點1:貝葉斯公式
貝葉斯公式:P(B|A)=P(A|B)*P(B)/P(A)
其中P(A)可以展開為
P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)*P(Bn)
(這在很多問答題或者選擇題中都有用到)
知識點2:關(guān)聯(lián)規(guī)則分析
主要考的是支持度和置信度。
知識點3:聚類
聚類之間類的度量是分距離和相似系數(shù)來度量的,距離用來度量樣品之間的相似性(K-means聚類,系統(tǒng)聚類中的Q型聚類),相似系數(shù)用來度量變量之間的相似性(系統(tǒng)聚類中的R型聚類)。
最常用的是K-means聚類,適用于大樣本,但需要事先指定分為K個類。
處理步驟:
1)、從n個數(shù)據(jù)對象中任意選出k個對象作為初始的聚類中心
2)、計算剩余的各個對象到聚類中心的距離,將它劃分給最近的簇
3)、重新計算每一簇的平均值(中心對象)
4)、循環(huán)2-3直到每個聚類不再發(fā)生變化為止。
系統(tǒng)聚類適用于小樣本。
知識點4:分類
有監(jiān)督就是給的樣本都有標(biāo)簽,分類的訓(xùn)練樣本必須有標(biāo)簽,所以分類算法都是有監(jiān)督算法。
監(jiān)督機器學(xué)習(xí)問題無非就是“minimizeyour error while regularizing your parameters”,也就是在規(guī)則化參數(shù)的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓(xùn)練數(shù)據(jù),而規(guī)則化參數(shù)是防止我們的模型過分?jǐn)M合我們的訓(xùn)練數(shù)據(jù),提高泛化能力。
1.樸素貝葉斯
1)基礎(chǔ)思想:
對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此分類項屬于哪個類別。
2)優(yōu)點:
可以決策樹、神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運用于大型數(shù)據(jù)庫中。
方法簡單,分類準(zhǔn)確率高,速度快,所需估計的參數(shù)少,對于缺失數(shù)據(jù)不敏感。
3)缺點:
假設(shè)一個屬性對定類的影響?yīng)毩⒂谄渌膶傩灾担@往往并不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。
需要知道先驗概率。
2.決策樹
1)基礎(chǔ)思想:
決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分枝代表該測試的一個輸出,而每個葉結(jié)點存放著一個類標(biāo)號。
在決策樹算法中,ID3基于信息增益作為屬性選擇的度量,C4.5基于信息增益比作為屬性選擇的度量,CART基于基尼指數(shù)作為屬性選擇的度量。
2)優(yōu)點 :
不需要任何領(lǐng)域知識或參數(shù)假設(shè)。
適合高維數(shù)據(jù)。
簡單易于理解。
短時間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。
3)缺點:
對于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征。
易于過擬合。
忽略屬性之間的相關(guān)性。
3.支持向量機
1)基礎(chǔ)思想:
支持向量機把分類問題轉(zhuǎn)化為尋找分類平面的問題,并通過最大化分類邊界點距離分類平面的距離來實現(xiàn)分類。
2)優(yōu)點 :
可以解決小樣本下機器學(xué)習(xí)的問題。
提高泛化性能。
可以解決文本分類、文字識別、圖像分類等方面仍受歡迎。
避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。
3)缺點:
缺失數(shù)據(jù)敏感。
內(nèi)存消耗大,難以解釋。
4.K近鄰
1基礎(chǔ)思想:
通過計算每個訓(xùn)練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個訓(xùn)練樣例,K個樣品中哪個類別的訓(xùn)練樣例占多數(shù),則待分類樣品就屬于哪個類別。
2)優(yōu)點 :
適用于樣本容量比較大的分類問題
3)缺點:
計算量太大
對于樣本量較小的分類問題,會產(chǎn)生誤分。
5.邏輯回歸(LR)
1)基礎(chǔ)思想:
回歸模型中,y是一個定型變量,比如y=0或1,logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率。
2)優(yōu)點 :
速度快,適合二分類問題。
簡單易于理解,直接看到各個特征的權(quán)重。
能容易地更新模型吸收新的數(shù)據(jù)。
3)缺點:
對數(shù)據(jù)和場景的適應(yīng)能力有局限,不如決策樹算法適應(yīng)性那么強。
知識點5:分類的評判指標(biāo)
準(zhǔn)確率和召回率廣泛用于信息檢索和統(tǒng)計分類領(lǐng)域
1)準(zhǔn)確率(precision rate):提取出的正確信息條數(shù)/提取出的信息條數(shù)
2)召回率(recall rate):提取出的正確信息條數(shù)/樣本中的信息條數(shù)
ROC和AUC是評價分類器的指標(biāo)
3)ROC曲線:
ROC關(guān)注兩個指標(biāo)
True Positive Rate ( TPR,真正率 ) = TP / [ TP + FN] ,TPR代表預(yù)測為正
實際也為正占總正實例的比例
False Positive Rate( FPR,假正率 ) = FP / [ FP + TN] ,F(xiàn)PR代表預(yù)測為正
但實際為負(fù)占總負(fù)實例的比例
在ROC 空間中,每個點的橫坐標(biāo)是FPR,縱坐標(biāo)是TPR
4)AUC:AUC(Area Under Curve)
被定義為ROC曲線下的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標(biāo)準(zhǔn)是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而AUC作為數(shù)值可以直觀的評價分類器的好壞,值越大越好。
5)如何避免過擬合?
過擬合表現(xiàn)在訓(xùn)練數(shù)據(jù)上的誤差非常小,而在測試數(shù)據(jù)上誤差反而增大。其原因一般是模型過于復(fù)雜,過分得去擬合數(shù)據(jù)的噪聲和outliers。
常見的解決辦法是正則化是:增大數(shù)據(jù)集,正則化
正則化方法是指在進(jìn)行目標(biāo)函數(shù)或代價函數(shù)優(yōu)化時,在目標(biāo)函數(shù)或代價函數(shù)后面加上一個正則項,一般有L1正則與L2正則等。規(guī)則化項的引入,在訓(xùn)練(最小化cost)的過程中,當(dāng)某一維的特征所對應(yīng)的權(quán)重過大時,而此時模型的預(yù)測和真實數(shù)據(jù)之間距離很小,通過規(guī)則化項就可以使整體的cost取較大的值,從而在訓(xùn)練的過程中避免了去選擇那些某一維(或幾維)特征的權(quán)重過大的情況,即過分依賴某一維(或幾維)的特征。
L1正則與L2正則區(qū)別:
L1:計算絕對值之和,用以產(chǎn)生稀疏性(使參數(shù)矩陣中大部分元素變?yōu)?),因為它是L0范式的一個最優(yōu)凸近似,容易優(yōu)化求解;
L2:計算平方和再開根號,L2范數(shù)更多是防止過擬合,并且讓優(yōu)化求解變得穩(wěn)定很快速;
所以優(yōu)先使用L2 norm是比較好的選擇。
知識點6:二叉樹(前、中、后遍歷)
(這里的前中后是指的根節(jié)點的遍歷次序)
1)前序遍歷(DLR),首先訪問根結(jié)點,然后遍歷左子樹,最后遍歷右子樹;
2)中序遍歷(LDR),首先遍歷左子樹,然后訪問根結(jié)點,最后遍歷右子樹;
3)后序遍歷(LRD),首先遍歷左子樹,然后訪問遍歷右子樹,最后訪問根結(jié)點。
知識點7:幾種基本排序算法
1)冒泡排序(Bubble Sort)
冒泡排序方法是最簡單的排序方法。這種方法的基本思想是,將待排序的元素看作是豎著排列的“氣泡”,較小的元素比較輕,從而要往上浮。
冒泡排序是穩(wěn)定的。算法時間復(fù)雜度是O(n^2)。
2)插入排序(Insertion Sort)
插入排序的基本思想是,經(jīng)過i-1遍處理后,L[1..i-1]己排好序。第i遍處理僅將L[i]插入L[1..i-1]的適當(dāng)位置,使得L[1..i]又是排好序的序列。
直接插入排序是穩(wěn)定的。算法時間復(fù)雜度是O(n^2)。
3)堆排序
堆排序是一種樹形選擇排序,在排序過程中,將A[n]看成是完全二叉樹的順序存儲結(jié)構(gòu),利用完全二叉樹中雙親結(jié)點和孩子結(jié)點之間的內(nèi)在關(guān)系來選擇最小的元素。
堆排序是不穩(wěn)定的。算法時間復(fù)雜度O(nlog n)。
4)快速排序
快速排序是對冒泡排序的一種本質(zhì)改進(jìn)??焖倥判蛲ㄟ^一趟掃描,就能確保某個數(shù)(以它為基準(zhǔn)點吧)的左邊各數(shù)都比它小,右邊各數(shù)都比它大。
快速排序是不穩(wěn)定的。最理想情況算法時間復(fù)雜度O(nlog2n),最壞O(n ^2)。
知識點8:SQL知識
1)左連接、右連接、inner連接,full連接
2)修改表:
alter table 教師 add 獎金 in
talter table 教師 drop 獎金
alter table 教師 rename 獎金 to 津貼
3)表權(quán)限的賦予:
4)怎樣清空表數(shù)據(jù),但不刪除表結(jié)構(gòu)
delete from tablename或者delete * from table_nametruncate table tablename
5)外鍵能不能為空
外鍵可以為空,為空表示其值還沒有確定;
如果不為空,剛必須為主鍵相同。
知識點9:統(tǒng)計學(xué)基礎(chǔ)知識
1)四分位極差、左右偏分布、p值
2)方差分析:
用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗,基本思想是:通過分析研究不同來源的變異對總變異的貢獻(xiàn)大小,從而確定控制變量對研究結(jié)果影響力的大小。
3)主成分分析:
是一種統(tǒng)計方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
4)幸存者偏差:
意思是指,當(dāng)取得資訊的渠道,僅來自于幸存者時(因為死人不會說話),此資訊可能會存在與實際情況不同的偏差。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03