数据分析:AdaBoost分类器
Boosting是一种集成技术,用于从多个弱分类器创建强分类器。 集成技术的一个众所周知的例子是随机森林(Random Forest),它使用多个决策树来创建一个随机森林。 直觉: AdaBoost,Adaptive Boosting的缩写,是第一个成功的针对二进制分类开发的Boosting算法。它是一种监督式机器学习算法,用于提高任何机器学习算法的性能。 最好与像决策树这样的弱学习者一起使用。 这些模型在分类问题上的准确性要高于随机机会。 AdaBoost的概念很简单: 我们将把数据集传递给多个基础学习者,每个基础学习者将尝试更正其前辈分类错误的记录。 我们会将数据集(如下所示,所有行)传递给Base Learner1。所有被Base Learner 1误分类的记录(行5,6和7被错误分类)将被传递给Base Learner 2,类似地,所有Base分类器的错误分类记录 学习者2将被传递给基本学习者3。最后,根据每个基本学习者的多数票,我们将对新记录进行分类。 我们将为数据集的每个特征创建一个树桩,就像在我们的例子中,我们将创建三个树桩,每个特征一个。 :我们需要根据每个特征的熵值或吉尼系数,选择任何基础学习器模型(为特征1创建的基础学习器1,为特征2创建的基础学习器2,为特征3创建的基础学习器3) (我在决策树文章中已经讨论了Ginni和熵)。 熵或吉尼系数值最小的基础学习器,我们将为第一个基础学习器模型选择该模型。 :我们需要找到在第3步中选择的基本学习者模型正确分类了多少条记录以及错误分类了多少条记录。 我们必须找到所有错误分类的总错误,让我们说我们是否正确分类了4条记录而错误分类了1条记录 Total Error =分类错误的记录的样本权重的总和。 因为我们只有1个错误,所以总错误= 1/7 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |