Bagging(R语言实现)—包外错误率，多样性测度

1. Bagging

Bagging即套袋法，其算法过程如下：

从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）
每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）
对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

2. 算法设计过程

2.1. 随机采样方法

样本总数150条(Iris数据集)

抽样方法是有放回随机抽样。对150个样本的数据集，进行150次又放回随机采样，这样得到具有和原样本空间同等大小的样本集。

这样操作次，得到训练样本。33个用决策树C50，34个朴素贝叶斯，33个用KNN。

2.2. 模型评价方法

2.2.1. 包外错误率

由抽样方法可知，每次抽样大约有36.8%的数据未被抽到，这36.8%将作为包外数据，包外错误率：

图 1 包外错误率

2.2.2. 成对多样性度量

a->两个个体学习器对同一条数据(h1=h2=Class)，分类都与原数据集分类相同

b->两个个体学习器对同一条数据(h1=class,h2!=Class)

c->两个个体学习器对同一条数据(h1!=class,h2=Class)

d->两个个体学习器对同一条数据(h1!=class,h2!=Class)，分类都与原数据集分类都不相同

K统计量

Q统计量

相关系数

不一致度量

表1两个分类器的分类结果组合情况

图2 多样性度量矩阵

2.3. 伪代码

输入：，弱分类器迭代次数T=100，弱分类器B

输出： %集成学习器

过程：

for i to T

%Bagging采样，总共T次

%获得包外测试集

%学习器训练得到个体学习器

%包外错误率

end

for i to T

for j=i+1 to T

统计a,b,c,d

计算

%多样性测度矩阵

end

3. 附录

数据集简介：

表2 iris

sepal length	萼片长度
sepal width	萼片宽度
petal length	花瓣长度
petal width	花瓣宽度
Class	Iris-setosa -> 1 Iris-versicolor -> 2 Iris-virginica-> 3

感谢大家批评指正

源代码(R)：https://github.com/arlenlee/dataMining

客服电话

电子邮件

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053