随机森林——机器学习中强大算法和应用工具

2015-09-26 Ahmed El Deeb MedSci原创

对于机器学习从业者而言,有自己最喜欢的算法是很常见的。可能这有点不太合乎常理,因为没有一个算法能够完全地主导所有的应用,而且机器学习算法的性能很大程度上依赖于应用程序和数据集的维度。甚至对于一个给定的问题和数据集,由不同算法训练而得到的一个组合模型往往会优于单个模型。尽管如此,人们还是有自己最喜欢的算法。有些人喜欢SVM,因为它们有着优美的公式或者是可直接使用的高质量算法实现;也有些人喜欢决策规则

对于机器学习从业者而言,有自己最喜欢的算法是很常见的。可能这有点不太合乎常理,因为没有一个算法能够完全地主导所有的应用,而且机器学习算法的性能很大程度上依赖于应用程序和数据集的维度。甚至对于一个给定的问题和数据集,由不同算法训练而得到的一个组合模型往往会优于单个模型。尽管如此,人们还是有自己最喜欢的算法。有些人喜欢SVM,因为它们有着优美的公式或者是可直接使用的高质量算法实现;也有些人喜欢决策规则,因为它们的简单性和可解释性;还有些人则因为神经网络的灵活性而痴迷于它。 我所喜欢的算法就是Random Forest(随机森林),而且它属于第二种常用的建模技术(首选项是线性模型),我通常会在所有给定的数据集上都尝试一下。 1. 随机森林使用背景 1.1 随机森林定义 随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林

作者:Ahmed El Deeb



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题