SVM分类器：机器学习就这么简单!

原作者: [db:作者] 来自: [db:来源] 收藏邀请

从网上也能搜罗到很多介绍SVM的文章，绝大多数文章主要集中在介绍SVM的原理，一般人或者没有基础的人阅读起来非常费劲，反而更增加了SVM了解的难度。但是对于很多学习者来说，更多的是想明白其设计的基本原理，了解其优缺点，以及具体怎么利用SVM来解决实际问题。本文就是期望能介绍清楚这些内容。

历史

SVM的一些基本概念其实提出来很早。早在1963年，数学家Vapnic等人在研究模式识别问题时就提出了支撑向量的概念，核心思想就是作为支撑向量的样本会对识别的问题起到关键性的作用。据传闻，也正是Vapnic发明的SVM的基本算法，使得神经网络的研究声势就此衰落了10年。

SVM分类器：机器学习就这么简单!

由于SVM在手写识别等领域取得了非同凡响的效果，研究者越来越多，也使得该算法出现了更多衍伸版，用来解决不同的问题，比如1971年，Kimeldorf提出了基于支撑向量构建核空间的方法。后来Vapnic等人正式提出相关的统计学习理论。

SVM本身是一个线性分类器，最开始解决的是线性可分的问题，然后拓展到非线性可分的问题，甚至扩展到非线性函数中去。解决线性不可分的方法，主要是利用非线性映射将低维空间内不可分的样本映射成高纬空间线性可分的样本。然后如线性可分一般，计算一个超平面将样本分成两类。

SVM分类器：机器学习就这么简单!

原理

机器学习相关教程中会详细介绍SVM原理，各种线性代数的变化。抛开具体的数学公式，SVM的基本原理还是比较简单，就是找到一个超平面，能将数据进行有效的分类，同时保证超平面两边的样本尽可能远的距离这个超平面。

SVM分类器：机器学习就这么简单!

另外一个重要的概念就是支撑向量（也就是其名字的起源）。如上图所示，实线部分即是我们要寻找的超平面，既然SVM的目的就是为了使两边分类的点尽可能的远离超平面，那么也就是要保证虚线部分的点尽可能原理即可。而这些虚线上的点即为支撑向量。

这里又引入了一个概念，离超频面的距离。距离的概念有很多种，在SVM中主要需要使用几何距离。经过一系列推导（感兴趣的同学可以翻相关书籍），几何距离即是，W*X+B/|W|。也就使得SVM的问题转换成在f(x)=W*X+B一定约束的情况下，|W|最小。

一般情况，SVM原理明白到这也就够了，但有些为了自己实现SVM，还需要了解到上面问题的求解，以及线性扩展到非线性问题，这要用到拉格朗日对偶性方面的原理了。这里也就不再深入了，毕竟我们的重点是在理解一定原理的基础上解决实际问题。

优缺点

其优点总结如下：

即使在高纬度空间，也有很好的适用性

在纬数远远高于样本数的情况下，也能适用

仅仅需要样本的一部分（支撑向量）就可以建立分类模型，相比KNN等方法内存等资源开销更小

由于可以指定核函数（Kimeldorf等完善的），可以处理很多种场景，不同核函数能达到不同效果

但其也有明显缺点：

如果特征数目过分多于样本数目，效果则会有所下降

概率评估的开销非常大

实例

这里仍然以scikit-learn作为工具，并介绍其使用的例子。

Scikit-learn中支持三种SVM分类算法：SVC，NuSVC，LinerSVC。SVC和NuSVC非常相似，而LinerSVC最大的区别在于其不能指定核函数，只能依照其默认的线性核函数来工作。从其官方例子，可以看出SVC指定线性核函数，其效果和LinerSVC是接近的。

SVM分类器：机器学习就这么简单!

和“机器学习就是这么简单之聚类算法实现”中的聚类算法类似，scikit-learn中各种SVC支持的输入主要是numpy.narray格式，而与聚类算法不同的时，由于SVM主要是一个监督型的学习算法，其还需要输入每个样本对应的lable，通过fit接口传入数据：fit(x, y, [weight])。

对应与上图的代码如下：

import numpy as np

import matplotlib.pyplot as plt

from sklearn import svm, datasets

#导入iris库数据

iris = datasets.load_iris()

X = iris.data[:, :2]

y = iris.target

C = 1.0 # 归一化参数

svc = svm.SVC(kernel=’linear’, C=C).fit(X, y)

rbf_svc = svm.SVC(kernel=’rbf’, gamma=0.7, C=C).fit(X, y)

poly_svc = svm.SVC(kernel=’poly’, degree=3, C=C).fit(X, y)

lin_svc = svm.LinearSVC(C=C).fit(X, y)

#创建网格型画布

h = .02 # 各网格中的距离

x_min, x_max = X[:, 0].min() – 1, X[:, 0].max() + 1

y_min, y_max = X[:, 1].min() – 1, X[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, h),

np.arange(y_min, y_max, h))

titles = [‘SVC with linear kernel’,

‘LinearSVC (linear kernel)’,

‘SVC with RBF kernel’,

‘SVC with polynomial (degree 3) kernel’]

#画图相关

for i, clf in enumerate((svc, lin_svc, rbf_svc, poly_svc)):

plt.subplot(2, 2, i + 1)

plt.subplots_adjust(wspace=0.4, hspace=0.4)

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)

plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm)

plt.xlabel(‘Sepal length’)

plt.ylabel(‘Sepal width’)

plt.xlim(xx.min(), xx.max())

plt.ylim(yy.min(), yy.max())

plt.xticks(())

plt.yticks(())

plt.title(titles[i])

plt.show()

除了上面简单的例子，scikit-learn中的SVM算法也能很好的处理样本不平衡、多分类等等问题。

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

句易网，一个查询违禁词敏感词的在线工具发布时间：2022-07-30

什么是抽佣？快手实际佣金比例发布时间：2022-07-30

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19680|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10117|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8411|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8767|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8722|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9779|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8709|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8075|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8757|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7602|2022-11-06

客服电话

电子邮件

SVM分类器：机器学习就这么简单!

上一篇：

下一篇：

krishnaik06/Machine-Learning-in-90-days

MagicMicky/FreemiumLibrary: A library th

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

FGRibreau/import-tweets-to-mastodon: How

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053