剪枝
在決策樹(shù)學(xué)習過(guò)程中,為了盡可能正確分類(lèi)訓練樣本,結點(diǎn)劃分過(guò)程將不斷重復,有時(shí)會(huì )造成決策樹(shù)分支過(guò)多,從而把訓練集自身的一些特點(diǎn)當作所有數據都具有的一般性質(zhì),即出現過(guò)擬合。剪枝是主動(dòng)去掉一些分支來(lái)降低過(guò)擬合的風(fēng)險,是決策樹(shù)學(xué)習算法對付過(guò)擬合的主要手段。只有少量問(wèn)題有此類(lèi)算法。
決策樹(shù)剪枝的基本策略有預剪枝(prepruning)和后剪枝(postpruning)。預剪枝是指在決策樹(shù)生成過(guò)程中,對每個(gè)結點(diǎn)在劃分前先進(jìn)行估計,若當前結點(diǎn)的劃分不能帶來(lái)決策樹(shù)泛化性能提升,則停止劃分并將當前結點(diǎn)標記為葉結點(diǎn)。后剪枝則是先從訓練集生成一棵完整的決策樹(shù),然后自底向上地對非葉結點(diǎn)進(jìn)行考察,若將此結點(diǎn)對應的子樹(shù)替換為葉結點(diǎn)能夠帶來(lái)決策樹(shù)泛化能力的提升,則將此樹(shù)替換為葉結點(diǎn)。常用的后剪枝策略包括:降低錯誤剪枝(reduced error pruning,REP)、悲觀(guān)錯誤剪枝(pessimistic error pruning,PEP)、基于錯誤剪枝(error based pruning,EBP)、代價(jià)復雜度剪枝(cost complexity pruning,CCP)和最小錯誤剪枝(minimum error pruning,MEP)等。
通常后剪枝決策樹(shù)比預剪枝決策樹(shù)保留更多的分支。在一般情形下,后剪枝決策樹(shù)的欠擬合風(fēng)險很小,其泛化性能往往優(yōu)于預剪枝決策樹(shù)。但是,后剪枝過(guò)程是在生成完整決策樹(shù)之后進(jìn)行的,并且要自底向上地對樹(shù)中的所有非葉結點(diǎn)進(jìn)行逐一考察,因此其訓練時(shí)間開(kāi)銷(xiāo)比未剪枝決策樹(shù)和預剪枝決策樹(shù)都要大得多。