RandomForestClassifier与Scratch中的ExtraTreesClassifier学习

任何人都可以解释scikit学习中RandomForestClassifier和ExtraTreesClassifier的区别。 我花了很多时间阅读报纸:

P. Geurts,D. Ernst。和L. Wehenkel,“Extremely randomized trees”,Machine Learning,63(1),3-42,2006

这似乎是ET的差异:

1)在拆分中selectvariables时,从整个训练集中抽取样本,而不是训练集的引导样本。

2)在每次拆分时,样本中的分割值是从样本中随机抽取的。

这两件事的结果是更多的“叶”。

是的,两个结论都是正确的,虽然scikit-learn中的随机森林实现可以启用或禁用bootstrap重新采样。

在实践中,RF通常比ET更紧凑。 从计算的angular度来看,ET通常更便宜,但可以变得更大。 ET有时可以推广比RF更好,但很难猜测什么时候没有先尝试(并通过交叉validation的网格search来调整n_estimatorsmax_featuresmin_samples_split )。