随机森林

管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

什么是随机森林

　　在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

学习算法

　　根据下列算法而建造每棵树：

　　1、用N来表示训练用例（样本）的个数，M表示特征数目。

　　2、输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

　　3、从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。

　　4、对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。

　　5、每棵树都会完整成长而不会剪枝（Pruning，这有可能在建完一棵正常树状分类器后会被采用）。

优点

　　随机森林的优点有：

对于很多种资料，它可以产生高准确度的分类器。
它可以处理大量的输入变数。
它可以在决定类别时，评估变数的重要性。
在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测variable interactions。
对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
学习过程是很快速的。

随机森林

目录

什么是随机森林

学习算法

优点

相关条目