• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

Bagging(R语言实现)—包外错误率,多样性测度

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

1.      Bagging

Bagging即套袋法,其算法过程如下:

  1. 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)

  2. 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)

  3. 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)

2.      算法设计过程

2.1.    随机采样方法

样本总数150条(Iris数据集)

抽样方法是有放回随机抽样。对150个样本的数据集,进行150次又放回随机采样,这样得到具有和原样本空间同等大小的样本集。

这样操作次,得到训练样本。33个用决策树C5034个朴素贝叶斯,33个用KNN

2.2.    模型评价方法

2.2.1.  包外错误率

由抽样方法可知,每次抽样大约有36.8%的数据未被抽到,这36.8%将作为包外数据,包外错误率:

 

 

 

1 包外错误率

 

 

 

2.2.2.  成对多样性度量

a->两个个体学习器对同一条数据(h1=h2=Class),分类都与原数据集分类相同

b->两个个体学习器对同一条数据(h1=class,h2!=Class)

c->两个个体学习器对同一条数据(h1!=class,h2=Class)

d->两个个体学习器对同一条数据(h1!=class,h2!=Class),分类都与原数据集分类都不相同

 

       K统计量

 

           Q统计量

 

 相关系数

 

 

 

不一致度量

 

                             表1两个分类器的分类结果组合情况

 

 

2 多样性度量矩阵

 

 

 

2.3.    伪代码

输入:,弱分类器迭代次数T=100,弱分类器B

输出:  %集成学习器

 

过程:

for i to T

               %Bagging采样,总共T

         %获得包外测试集

            %学习器训练得到个体学习器

      %包外错误率

 

end

for i to T

    for j=i+1 to T

         统计a,b,c,d

         计算

           %多样性测度矩阵

end

end

 

3.      附录

数据集简介:

2 iris

sepal length

萼片长度
sepal width
萼片宽度
petal length
花瓣长度
petal width
花瓣宽度

Class

Iris-setosa -> 1
Iris-versicolor -> 2
Iris-virginica-> 3

 

 感谢大家批评指正

源代码(R)https://github.com/arlenlee/dataMining


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言学习 第十篇:包发布时间:2022-07-18
下一篇:
R语言学习笔记——C#中如何使用R语言setwd()函数发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap