RandomForestClassifier与Scratch中的ExtraTreesClassifier学习

任何人都可以解释scikit学习中RandomForestClassifier和ExtraTreesClassifier的区别。我花了很多时间阅读报纸：

P. Geurts，D. Ernst。和L. Wehenkel，“Extremely randomized trees”，Machine Learning，63（1），3-42,2006

这似乎是ET的差异：

1）在拆分中selectvariables时，从整个训练集中抽取样本，而不是训练集的引导样本。

2）在每次拆分时，样本中的分割值是从样本中随机抽取的。

这两件事的结果是更多的“叶”。

是的，两个结论都是正确的，虽然scikit-learn中的随机森林实现可以启用或禁用bootstrap重新采样。

在实践中，RF通常比ET更紧凑。从计算的angular度来看，ET通常更便宜，但可以变得更大。 ET有时可以推广比RF更好，但很难猜测什么时候没有先尝试（并通过交叉validation的网格search来调整n_estimators ， max_features和min_samples_split ）。

RandomForestClassifier与Scratch中的ExtraTreesClassifier学习

如何从scikit-learn决策树中提取决策规则？

如何在缺失（NA）值的情况下在R中构build随机森林？

R随机森林variables重要性

如何确定RandomForestClassifier中的feature_importance？