主要用于預(yù)測(cè),如:收集了若干人的健康記錄,包括年齡、性別、抽煙史、日常飲食及家庭病史等變量的數(shù)據(jù),因變量為得了癌癥(Y=1),沒有得癌癥(Y=0)。通過訓(xùn)練得出得癌癥和沒得癌癥的概率擬合公式。當(dāng)有一批新的數(shù)據(jù)時(shí),可以根據(jù)擬合公式得出是否得癌癥的概率。
邏輯回歸和決策樹的主要差別:
1. 對(duì)于擁有缺失值的數(shù)據(jù),決策樹可以應(yīng)對(duì),而邏輯回歸需要挖掘人員預(yù)先對(duì)缺失數(shù)據(jù)進(jìn)行處理。
2. 邏輯回歸對(duì)數(shù)據(jù)整體結(jié)構(gòu)的分析優(yōu)于決策樹,而決策樹對(duì)局部結(jié)構(gòu)的分析優(yōu)于邏輯回歸。
3. 邏輯回歸擅長分析線性關(guān)系,而決策樹對(duì)線性關(guān)系的把握較差。線性關(guān)系在實(shí)踐中有很多優(yōu)點(diǎn):簡(jiǎn)潔,易理解,可以在一定程度上防止對(duì)數(shù)據(jù)的過度擬合。
4. 邏輯回歸對(duì)極值比較敏感,容易受極端值的影響,而決策樹在這方面表現(xiàn)較好。
5. 應(yīng)用上的區(qū)別:決策樹的結(jié)果和邏輯回歸相比略顯粗糙。邏輯回歸原則上可以提供數(shù)據(jù)中每個(gè)觀察點(diǎn)的概率,而決策樹只能把挖掘?qū)ο蠓譃橛邢薜母怕式M群。比如決策樹確定17個(gè)節(jié)點(diǎn),全部人口就只能有17個(gè)概率,在應(yīng)用上受到一定限制。就操作來說,決策樹比較容易上手,需要的數(shù)據(jù)預(yù)處理較少,而邏輯回歸則要求一定的訓(xùn)練和技巧。
6. 執(zhí)行速度上:當(dāng)數(shù)據(jù)量很大的時(shí)候,邏輯回歸的執(zhí)行速度非常慢,而決策樹的運(yùn)行速度上明顯快于邏輯回歸。








暫無數(shù)據(jù)