决策树中的随机森林算法解决什么问题?

随机森林的出现主要是为了理解单个决策树可能出现的大误差和过拟合问题。该算法的核心思想是将几个不同的决策树进行组合,利用这种组合来减少单个决策树可能带来的片面性和判断不准确。

随机森林是指使用多棵树来训练和预测样本的分类器。该分类器首先由Leo Breiman和Adele Cutler提出,并注册为商标。

在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的类别由各个树输出的类别的模式决定。Leo Breiman和Adele Cutler开发了一种算法来推断随机森林。“随机森林”是他们的商标。?

这个术语来自于Bell Laboratories的Tin Kam Ho在1995中提出的随机决策森林。

这种方法结合了Breimans的“引导聚集”思想和Ho的“随机子空间方法”来建立一组决策树。

学习算法:

每个树都是根据以下算法构建的:

1.n代表训练案例(样本)的数量,M代表特征的数量。

2.输入特征数m,用于确定决策树上一个节点的决策结果;其中m应该比m小很多。

3.以放回样本的方式从n个训练用例(样本)中抽取n次,形成一个训练集(bootstrap sampling),用未抽取的用例(样本)进行预测,并评估其误差。

4.对于每个节点,随机选择M个特征,决策树中每个节点的决策都是基于这些特征的。根据这m个特征,计算出最佳分裂方式。

5.每棵树都将在没有修剪的情况下完全生长,这可以在建立正常的树分类器之后被采用。