建e網(wǎng)室內(nèi)設(shè)計效果圖門廳百度如何優(yōu)化
決策樹優(yōu)點
1. 易于理解和解釋,因為樹木可以畫出來被看見
2. 需要很少的數(shù)據(jù)準備。其他很多算法通常都需要數(shù)據(jù)規(guī)范化,需要創(chuàng)建虛擬變量并刪除空值等。但請注意, sklearn中的決策樹模塊不支持對缺失值的處理。
3. 使用樹的成本(比如說,在預(yù)測數(shù)據(jù)的時候)是用于訓(xùn)練樹的數(shù)據(jù)點的數(shù)量的對數(shù),相比于其他算法,這是 一個很低的成本。
4. 能夠同時處理數(shù)字和分類數(shù)據(jù),既可以做回歸又可以做分類。其他技術(shù)通常專門用于分析僅具有一種變量類 型的數(shù)據(jù)集。
5. 能夠處理多輸出問題,即含有多個標簽的問題,注意與一個標簽中含有多種標簽分類的問題區(qū)別開
6. 是一個白盒模型,結(jié)果很容易能夠被解釋。如果在模型中可以觀察到給定的情況,則可以通過布爾邏輯輕松 解釋條件。相反,在黑盒模型中(例如,在人工神經(jīng)網(wǎng)絡(luò)中),結(jié)果可能更難以解釋。
7. 可以使用統(tǒng)計測試驗證模型,這讓我們可以考慮模型的可靠性。
8. 即使其假設(shè)在某種程度上違反了生成數(shù)據(jù)的真實模型,也能夠表現(xiàn)良好。
決策樹的缺點
1. 決策樹學(xué)習(xí)者可能創(chuàng)建過于復(fù)雜的樹,這些樹不能很好地推廣數(shù)據(jù)。這稱為過度擬合。修剪,設(shè)置葉節(jié)點所 需的最小樣本數(shù)或設(shè)置樹的最大深度等機制是避免此問題所必需的,而這些參數(shù)的整合和調(diào)整對初學(xué)者來說 會比較晦澀
2. 決策樹可能不穩(wěn)定,數(shù)據(jù)中微小的變化可能導(dǎo)致生成完全不同的樹,這個問題需要通過集成算法來解決。
3. 決策樹的學(xué)習(xí)是基于貪婪算法,它靠優(yōu)化局部最優(yōu)(每個節(jié)點的最優(yōu))來試圖達到整體的最優(yōu),但這種做法 不能保證返回全局最優(yōu)決策樹。這個問題也可以由集成算法來解決,在隨機森林中,特征和樣本會在分枝過 程中被隨機采樣。
4. 有些概念很難學(xué)習(xí),因為決策樹不容易表達它們,例如XOR,奇偶校驗或多路復(fù)用器問題。
5. 如果標簽中的某些類占主導(dǎo)地位,決策樹學(xué)習(xí)者會創(chuàng)建偏向主導(dǎo)類的樹。因此,建議在擬合決策樹之前平衡 數(shù)據(jù)集。