什么是随机森林算法?

随机森林是指使用多棵树来训练和预测样本的分类器。该分类器首先由Leo Breiman和Adele Cutler提出,并注册为商标。

在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的类别由各个树输出的类别的模式决定。Leo Breiman和Adele Cutler开发了一种算法来推断随机森林。“随机森林”是他们的商标。?

这个术语来自于Bell Laboratories的Tin Kam Ho在1995中提出的随机决策森林。

这种方法结合了Breimans的“引导聚集”思想和Ho的“随机子空间方法”来建立一组决策树。

学习算法

每个树都是根据以下算法构建的:

1.n代表训练案例(样本)的数量,M代表特征的数量。

2.输入特征数m,用于确定决策树上一个节点的决策结果;其中m应该比m小很多。

3.以放回样本的方式从n个训练用例(样本)中抽取n次,形成一个训练集(bootstrap sampling),用未抽取的用例(样本)进行预测,并评估其误差。

4.对于每个节点,随机选择M个特征,决策树中每个节点的决策都是基于这些特征的。根据这m个特征,计算出最佳分裂方式。

5.每棵树都将在没有修剪的情况下完全生长,这可以在建立正常的树分类器之后被采用。

扩展数据:

基于随机森林的无监督学习

作为构建的一部分,随机森林预测值自然会导致测量观测值之间的差异。您还可以定义未标记数据之间的随机森林差异度量:其思想是构建一个随机森林预测器来区分“观察到的”数据和适当生成的合成数据。

观测数据是原始的未标记数据,合成数据是从参考分布中提取的。随机森林的相异度度量是有吸引力的,因为它可以很好地处理混合变量类型,对输入变量的单调变换不敏感,并且在存在异常值的情况下测量结果仍然是可靠的。

由于其固有变量的选择,随机森林相异可以很容易地处理大量的半连续变量。

参考资料:

百度百科-随机森林