1. 任務(wù):以新聞分類為例
2. 特征表示:X={昨日,是,國內(nèi),投資,市場……}
3. 特征選擇:X={國內(nèi),投資,市場……}
4. 模型選擇:樸素貝葉斯分類器

? P(X):待分類對象自身的概率,可忽略
? P(yi):每個類別的先驗(yàn)概率,如P(軍事)
? P(X|yi):每個類別產(chǎn)生該對象的概率
? P(xi|yi):每個類別產(chǎn)生該特征的概率,如P(蘋果|科技)
5. 訓(xùn)練數(shù)據(jù)準(zhǔn)備
根據(jù)最大似然估計(maximum likehood estimation,MLE):
P(yi)=Count(yi)/Count(*)
即:類別為yi的對象在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)/訓(xùn)練集樣本總數(shù)
P(xj|yi)=Count(xj,yi)/Count(yi)
即:特征xj和類別yi在訓(xùn)練數(shù)據(jù)中同時出現(xiàn)的次數(shù)/Count(yi)
6. 模型訓(xùn)練進(jìn)行預(yù)測分類
給定X,依據(jù)上面的貝葉斯公式,計算所有的p(yi|X):
? P(軍事|X)=P(國內(nèi)|軍事)* P(投資|軍事)* P(市場|軍事)……P(軍事)
? 同理,計算P(科技|X) P(生活|X)
選擇概率值最大的yi作為輸出
7. 評測

? 準(zhǔn)確度 Accuracy:(50+35)/(35+5+10+50)=85%
? 精確率 Precision(y1):50/(50+5)=90.9%
? 召回率 Recall(y1):50/(50+10)=83.3%








暫無數(shù)據(jù)