家有琴童-读书简记 千脑智能-读书简记 笔记的方法-读书简记 心经抉隐-读书简记 刷新:重新发现商业与未来-读书简记 认知觉醒-读书简记 真希望我父母读过这本书-读书简记 模仿欲望-读书简记 蛤蟆先生去看心理医生-读书简记 十分钟冥想-读书简记 当我谈跑步时,我谈些什么-读书简记 乔布斯、禅与投资-读书简记 掌控习惯-读书简记 金钱心理学-读书简记 被讨厌的勇气-读书简记 身心合一的奇迹力量-读书简记 零极限-读书简记 投资最重要的事-读书简记 语言学的邀请-读书简记 更富有、更睿智、更快乐-读书简记 管理的常识-读书简记 卡片笔记写作法-读书简记 纳瓦尔宝典-读书简记 卓有成效的管理者-读书简记 贪婪的多巴胺-读书简记 清醒的活-读书简记 像哲学家一样生活:斯多葛哲学的生活艺术-读书简记 你是你吃出来的-读书简记 你可以跑的更快-读书简记 丹尼尔斯经典跑步训练法-读书简记 非暴力沟通-读书简记 异类-读书简记 稀缺-读书简记 为什么要睡觉-读书简记 事实-读书简记 世界上最快乐的人-读书简记 病毒学概览-读书简记 免疫学概览-读书简记 内观-读书简记 沟通的艺术-读书简记 你的生命有什么可能-读书简记 演化的故事-读书简记 经济学原理:宏观经济学分册-读书简记 经济学原理:微观经济学分册-读书简记 社会心理学-读书简记 追寻记忆的痕迹-读书简记 情绪-读书简记 远见:如何规划职业生涯3阶段-读书简记 存在主义心理治疗-读书简记 P·E·T父母效能训练-读书简记 彼得·林奇的成功投资-读书简记 2015-2020美国居民膳食指南-读书简记 中国居民膳食指南(2016)-读书简记 批判性思维-读书简记 代码大全-读书简记 游戏力-读书简记 成功,动机与目标-读书简记 基因组:人种自传23章-读书简记 YOU身体使用手册-读书简记 登天之梯-读书简记 为什么学生不喜欢上学-读书简记 请停止无效努力-读书简记 麦肯基疗法-读书简记 跟简七学理财-课程简记 指数基金投资指南(2017中信版)-读书简记 指数基金投资指南(2015雪球版)-读书简记 让大脑自由:释放天赋的12条定律-读书简记 养育的选择-读书简记 GPU高性能编程CUDA实战-读书简记 百万富翁快车道-读书简记 原则-读书简记 穷查理宝典-读书简记 C++并发编程实战-读书简记 哲学家们都干了些什么-读书简记 Effective C++-读书简记 通往财富自由之路-读书简记 Linux命令行与Shell脚本编程大全-读书简记 刻意练习-读书简记 写给大家看的设计书-读书简记 习惯的力量-读书简记 好好学习-读书简记 硅谷最受欢迎的情商课-读书简记 富爸爸,穷爸爸-读书简记 如何说孩子才会听,怎么听孩子才会说-读书简记 阻力最小之路-读书简记 ProGit-读书简记 思考:快与慢-读书简记 C语言深度剖析-读书简记 编程珠玑-读书简记 Head First 设计模式-读书简记 反脆弱-读书简记 我的阅读书单 小强升职记-读书简记 观呼吸-读书简记 黑客与画家-读书简记 晨间日记的奇迹-读书简记 如何高效学习-读书简记 即兴的智慧-读书简记 精力管理-读书简记 C++编程思想-读书简记 拖延心理学-读书简记 自控力-读书简记 伟大是熬出来的-读书简记 生命不能承受之轻-读书简记 高效能人士的七个习惯-读书简记 没有任何借口-读书简记 一分钟的你自己-读书简记 人生不设限-读书简记 暗时间-读书简记
家有琴童-读书简记 千脑智能-读书简记 笔记的方法-读书简记 心经抉隐-读书简记 刷新:重新发现商业与未来-读书简记 认知觉醒-读书简记 真希望我父母读过这本书-读书简记 模仿欲望-读书简记 蛤蟆先生去看心理医生-读书简记 十分钟冥想-读书简记 当我谈跑步时,我谈些什么-读书简记 乔布斯、禅与投资-读书简记 掌控习惯-读书简记 金钱心理学-读书简记 被讨厌的勇气-读书简记 身心合一的奇迹力量-读书简记 零极限-读书简记 投资最重要的事-读书简记 语言学的邀请-读书简记 更富有、更睿智、更快乐-读书简记 管理的常识-读书简记 卡片笔记写作法-读书简记 纳瓦尔宝典-读书简记 卓有成效的管理者-读书简记 贪婪的多巴胺-读书简记 清醒的活-读书简记 像哲学家一样生活:斯多葛哲学的生活艺术-读书简记 你是你吃出来的-读书简记 你可以跑的更快-读书简记 丹尼尔斯经典跑步训练法-读书简记 非暴力沟通-读书简记 异类-读书简记 稀缺-读书简记 为什么要睡觉-读书简记 事实-读书简记 世界上最快乐的人-读书简记 病毒学概览-读书简记 免疫学概览-读书简记 内观-读书简记 沟通的艺术-读书简记 你的生命有什么可能-读书简记 演化的故事-读书简记 经济学原理:宏观经济学分册-读书简记 经济学原理:微观经济学分册-读书简记 社会心理学-读书简记 追寻记忆的痕迹-读书简记 情绪-读书简记 远见:如何规划职业生涯3阶段-读书简记 存在主义心理治疗-读书简记 P·E·T父母效能训练-读书简记 彼得·林奇的成功投资-读书简记 2015-2020美国居民膳食指南-读书简记 中国居民膳食指南(2016)-读书简记 批判性思维-读书简记 代码大全-读书简记 游戏力-读书简记 成功,动机与目标-读书简记 基因组:人种自传23章-读书简记 YOU身体使用手册-读书简记 登天之梯-读书简记 为什么学生不喜欢上学-读书简记 请停止无效努力-读书简记 麦肯基疗法-读书简记 跟简七学理财-课程简记 指数基金投资指南(2017中信版)-读书简记 指数基金投资指南(2015雪球版)-读书简记 让大脑自由:释放天赋的12条定律-读书简记 养育的选择-读书简记 GPU高性能编程CUDA实战-读书简记 百万富翁快车道-读书简记 原则-读书简记 穷查理宝典-读书简记 C++并发编程实战-读书简记 哲学家们都干了些什么-读书简记 Effective C++-读书简记 通往财富自由之路-读书简记 Linux命令行与Shell脚本编程大全-读书简记 刻意练习-读书简记 写给大家看的设计书-读书简记 习惯的力量-读书简记 好好学习-读书简记 硅谷最受欢迎的情商课-读书简记 富爸爸,穷爸爸-读书简记 如何说孩子才会听,怎么听孩子才会说-读书简记 阻力最小之路-读书简记 ProGit-读书简记 思考:快与慢-读书简记 C语言深度剖析-读书简记 编程珠玑-读书简记 Head First 设计模式-读书简记 反脆弱-读书简记 小强升职记-读书简记 观呼吸-读书简记 黑客与画家-读书简记 晨间日记的奇迹-读书简记 如何高效学习-读书简记 即兴的智慧-读书简记 精力管理-读书简记 C++编程思想-读书简记 拖延心理学-读书简记 自控力-读书简记 伟大是熬出来的-读书简记 生命不能承受之轻-读书简记 高效能人士的七个习惯-读书简记 没有任何借口-读书简记 一分钟的你自己-读书简记 人生不设限-读书简记 暗时间-读书简记

理解SVM算法

2016年08月10日

写在前面


从大学就开始接触SVM,李航老师在《统计机器学习方法》中讲的很到位,下文是结合李航老师书中的内容进行的理解和整理,便于回顾和加深印象。

概述


支持向量机(SVM)是一种二类分类器,是最为广泛使用的分类器之一。其基本模型是定义在特征空间上的间隔最大化线性分类器,使用核技巧使其可以求解非线性分类问题。其学习策略是间隔最大化,可形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题,支持向量机的学习算法是求解凸二次规划的最优化算法。

下面将由简入繁分线性可分支持向量机、线性支持向量机、非线性支持向量机及序列最小最优化算法四部分进行详细介绍。

线性可分支持向量机


假设给定一个特征空间上的训练数据集$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N))\}$,其中$x_i \in \mathcal{X}=\mathbf{R}^n, y_i \in \mathcal{Y}=\{+1,-1\}, i=1,2,...,N $,$x_i$为第i个特征向量,也称为实例,$y_i$为$x_i$的类标记。

线性可分意味着存在分离超平面($w \cdot x+b=0$)可以将正负例完全分开。一般地,当数据集线性可分时,存在无数个分离超平面,线性可分支持向量机利用间隔最大化来求最优分离超平面。下面先介绍一下间隔。

函数间隔与几何间隔

一般来说,一个点距离分离超平面的远近可以表示分类的确信程度,在超平面$w \cdot x+b=0$确定的情况下,$|w \cdot x+b|$能够相对的表示点$x$距离超平面的远近,而$w \cdot x+b$的符号与类标记$y$的符号是否一致能够表示分类是否正确,所以可用量$y(w \cdot x+b)$来表示分类的正确性和确信度,这就是函数间隔的概念。

定义(函数间隔):对于给定的训练数据集$T$和超平面$(w,b)$,定义超平面$(w,b)$关于样本点$(x_i,y_i)$的函数间隔为:

$$\hat{\gamma_i}=y_i(w \cdot x_i+b)$$

定义超平面$(w,b)$关于训练数据集$T$的函数间隔为超平面$(w,b)$关于$T$中所有样本点$(x_i,y_i)$的函数间隔最小值,即:

$$\hat{\gamma}=\min_{i=1,...,N}{\hat{\gamma_i}}$$

但只有函数间隔还不够,只要成比例改变$w$和$b$,超平面没变,但间隔变为原来的2倍,于是启示我们可以对超平面法向量增加某些约束,如规范化$||w||=1$,此时得到的即为几何间隔。

定义(几何间隔):对于给定的训练数据集$T$和超平面$(w,b)$,定义超平面$(w,b)$关于样本点$(x_i,y_i)$的几何间隔为:

$$\gamma_i=y_i(\frac{w}{\parallel w\parallel} \cdot x_i+\frac{b}{\parallel w\parallel})$$

定义超平面$(w,b)$关于训练数据集$T$的函数间隔为超平面$(w,b)$关于$T$中所有样本点$(x_i,y_i)$的函数间隔最小值,即:

$$\gamma=\min_{i=1,...,N}{\gamma_i}$$

几何间隔可以理解为几何中点到直线的距离,即,设直线$L$的方程为$Ax+By+C=0$,点$P$坐标为$(x_i,y_i)$,则$P$到$L$的距离为$\frac{\mid Ax_i+By_i+C\mid }{\sqrt{A^2+B^2}}$。

从定义可知,看出函数间隔和几何间隔有以下关系:

$$\gamma_i=\frac{\hat{\gamma_i}}{\parallel w \parallel}$$

$$\gamma=\frac{\hat{\gamma}}{\parallel w \parallel}$$

间隔最大化

间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。具体的,最大间隔分类超平面问题可以表示为下面的约束最优化问题:

$$\max_{w,b}\;\;\gamma$$

$$s.t.\;\; y_i(\frac{w}{\parallel w\parallel} \cdot x_i+\frac{b}{\parallel w\parallel}) \geq \gamma,\;\; i=1,2,...,N$$

考虑几何间隔$\gamma$和函数间隔$\hat{\gamma}$的关系,上式可以改写为:

$$\max_{w,b}\;\;\frac{\hat{\gamma}}{\parallel w \parallel}$$

$$s.t.\;\; y_i(w \cdot x_i+b) \geq \hat{\gamma}, \;\;i=1,2,...,N$$

函数间隔$\hat{\gamma}$的取值并不影响最优化问题的解。实际上在超平面固定的情况下,函数间隔可以取任意值,同时$w,b$也会做等比例缩放。当函数间隔取$\lambda \hat{\gamma}$时,$w,b$此时的取值(超平面固定)分别为$\lambda w, \lambda b$,可以看出并不影响最优化的解。于是我们取$\hat{\gamma}=1$。则上述最优化可以改写为:

$$\max_{w,b}\;\;\frac{1}{\parallel w \parallel}$$

$$s.t.\;\; y_i(w \cdot x_i+b) \geq 1, \;\;i=1,2,...,N$$

即在相应约束条件条件$y_i(w \cdot x_i+b) \geq 1, \;\;i=1,2,...,N$下,最大化$\frac{1}{\parallel w \parallel}$的值,而$\frac{1}{\parallel w \parallel}$便是几何间隔(函数间隔为1)。

支持向量和间隔边界

在线性可分情况下,训练样本中与分类超平面最近的样本点的实例即为支持向量,也就是约束条件式等号成立的点,即$y_i(w \cdot x_i+b)-1=0$的点。

正负样本所在超平面的距离称为间隔,间隔依赖于分离超平面的法向量,等于$\frac{2}{\parallel w \parallel}$。

更直观的理解可以参加下图:

线性可分支持向量机学习算法-最大间隔法

算法:线性可分支持向量机学习算法-最大间隔法

输入训练数据集$T$,输出最大间隔分类超平面和分类决策函数。

(1) 构造并求解约束最优化问题:

$$\min_{w,b}\;\;\frac{1}{2}\parallel w \parallel^2$$

$$s.t.\;\; y_i(w \cdot x_i+b) \geq 1, \;\; i=1,2,...,N$$

求得最优解$w^{*},b^{*}$

(2) 由此得到分类超平面:

$$w^{*} \cdot x + b^{*}=0$$

分类决策函数

$$f(x)=sign(w^{*} \cdot x+b^{*})$$

注:最大化$\frac{1}{\parallel w \parallel}$和最小化$\frac{1}{2}\parallel w \parallel ^2$是等价的。

线性可分支持向量机学习的对偶算法

为了求解线性可分支持向量机的最优化问题,将他作为原始优化问题,应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解,这就是线性可分直线向量机的对偶算法。这样做的优点,一方面对偶问题更容易求解,另一方面自然引入核函数,进入推广到非线性分类问题。‘

首先构建拉格朗日函数,为此,对每一个不等式约束引进拉格朗日乘子$\alpha_i \geq 0, \;\; i=1,2,...,N$,定义拉格朗日函数:

$$L(w,b,\alpha)=\frac{1}{2}\parallel w \parallel ^2-\sum_{i=1}^{N}\alpha_iy_i(w_i \cdot x_i+b)+\sum_{i=1}^{N}\alpha_i$$

其中$\alpha=(\alpha_1,\alpha_2,...,\alpha_N)$为拉格朗日乘子向量。根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:

$$\max_{\alpha}\min_{w,b}L(w,b,\alpha)$$

为了求对偶问题的解,需要先求$L(w,b,\alpha)$对$w,b$的极小(分别对$w,b$求偏导,并令其等于0),再求对$\alpha$的极大。求得对偶最优化问题对$\alpha$的解$\alpha^{*}$后,可由$\alpha^{*}$求得原始最优化问题对$(w,b)$的最优解$(w^{*},b^{*})$。

算法:线性可分支持向量机学习算法-对偶算法 输入训练数据集$T$,输出最大间隔分类超平面和分类决策函数。

(1) 构造并求解约束最优化问题:

$$\min\_{\alpha}\;\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i$$

$$s.t. \;\; \sum_{i=1}^{N}\alpha_iy_i=0, \; \alpha_i \geq 0, \;\; i=1,2,...,N$$

求得最优解$\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},...,\alpha_N^{*})$。

(2) 计算

$$w^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i$$

并选择$\alpha^{*}$的一个正分量$\alpha_j^{*} > 0$ 计算

$$b^{*}=y_i-\sum_{i=1}^{N}\alpha_i^{*}y_i(x_i \cdot x_j)$$

(3) 求得分类超平面

$$w^{*} \cdot x +b^{*}=0$$

分类决策函数:

$$f(x)=sign(w^{*} \cdot x+b^{*})$$

对偶问题的支持向量

由对偶问题算法可知,$w^{*}$和$b^{*}$只依赖于训练数据中$\alpha_i^{*} > 0$的样本点$(x_i,y_i)$,而其他样本点没有影响,将训练数据中对应$\alpha_i^{*} > 0$的实例点称为支持向量。

线性支持向量机


当训练数据不是线性可分的时候(通常情况是训练数据有一些特异点,去除后剩下大部分样本点组成的集合是线性可分的),就要使用软间隔最大化来代替线性可分情况下的硬间隔最大化。解决方法对每一个样本点引入一个松弛变量$\xi_i \geq 0$,使函数间隔加上松弛变量大约等于1,同时对每一个松弛变量,支付一个代价$\xi_i$,则线性不可分的线性支持向量机学习问题变为了如下最优化问题:

$$\min_{w,b,\xi}\;\;\frac{1}{2}\parallel w \parallel^2 + C\sum_{i=1}^{N}\xi_i$$

\begin{equation} \begin{split} s.t.\;\; y_i(w \cdot x_i+b) & \geq 1 - \xi_i, \;\; i=1,2,...,N \\ \xi_i & \geq 0, \;\; i=1,2,...,N \end{split} \end{equation}

线性支持向量机学习算法

算法:线性支持向量机学习算法

输入训练数据集$T$,输出最大间隔分类超平面和分类决策函数。

(1) 选择惩罚系数$C > 0$,构造并求解凸二次规划问题:

$$\min\_{\alpha}\;\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i$$

$$s.t. \;\; \sum_{i=1}^{N}\alpha_iy_i=0, \; 0 \leq \alpha_i \leq C, \;\; i=1,2,...,N$$

求得最优解$\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},...,\alpha_N^{*})$。

(2) 计算

$$w^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i$$

并选择$\alpha^{*}$的一个正分量$0 < \alpha_j^{*} < C$ 计算

$$b^{*}=y_i-\sum_{i=1}^{N}\alpha_i^{*}y_i(x_i \cdot x_j)$$

(3) 求得分类超平面

$$w^{*} \cdot x +b^{*}=0$$

分类决策函数:

$$f(x)=sign(w^{*} \cdot x+b^{*})$$

对任意适合条件$0 < \alpha_j^{*} < C$的$\alpha_j*{*}$都可以求出$b^{*}$,但由于原始问题对$b$的解并不唯一,所以实际计算时可以去所有符合条件的样本点上的平均值。

支持向量和软间隔

在线性不可分的情况下,将对偶问题的解$\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},...,\alpha_N^{*})$中对应于$\alpha_i^{*} > 0$的样本点$(x_i,y_i)$的实例称为支持向量(软间隔的支持向量)。如下图所示,这种情况下的支持向量比线性可分要复杂一些,可能在间隔边界(图中虚线),可能在分类超平面(图中实线)与间隔边界之间,也可能在分类超平面误分一侧。

图中图示了四个实例$x_i, \;i=1,2,3,4$到间隔边界的距离$\frac{\xi_i}{\parallel w \parallel}$。若$\alpha_i^{*} < C$,则$\xi_i = 0$ (可由参考文献[1] P111 7.53 7.54得出),此时支持向量恰好在间隔边界上;若$\alpha_i^{*} = C, 0 < \xi_i < 1$,则分类正确,支持向量$x_i$落在间隔边界和分类超平面之间;若$\alpha_i^{*} = C, \xi_i = 1$, 则落在分离超平面上;若若$\alpha_i^{*} = C, \xi_i > 1$,则$x_i$位于分类超平面误分一侧。

非线性支持向量机


当分类问题是非线性的时候,支持向量机可以通过利用核技巧来将非线性的问题转换为线性的问题进行求解。下面首先介绍核技巧。

核技巧

下图是一个简单的示例,可以看出,通过将原空间$\mathcal{X} \subset \mathbf{R}^2, \; x=(x^{(1)},x^{(2)})^T \in \mathcal{X} $映射到新空间$\mathcal{Z} \subset mathbf{R}^2, \; z=(z^{(1)}, z^{(2)}) \in \mathcal{Z}$ (映射函数为$z=\phi(x)=(((x^{(1)})^2,(x^{(2)})^2)^T$),非线性分类的问题可以转换为线性分类的问题,从而通过在新空间使用线性分类学习方法从训练数据中学习分类模型来做到非线性问题的分类。核技巧就是这样的方法。

定义(核函数):设$\mathcal{X}$是输入空间(欧式空间$\mathbf{R}^{n}的子集或者离散集合$),又设$\mathcal{H}$为特征空间(希尔伯特空间),如果存在一个从$\mathcal{X}$到$\mathcal{H}$的映射

$$\phi(x):\mathcal{X}\rightarrow \mathcal{H}$$

使得对于所有的$x,z \in \mathcal{X}$,函数$K(x,z)$满足

$$K(x,z)=\phi(x) \cdot \phi(z)$$

则称$K(x,z)$为核函数,$\phi(x)$为映射函数,式中$\phi(x) \cdot \phi(z)$为$\phi(x)$和$\phi(z)$的内积。

我们注意到,在线性支持向量机的对偶问题中,无论是目标函数还是决策函数都只涉及输入实例和实例之间的内积。在对偶问题中我们用核函数$K(x,z)=\phi(x_i) \cdot \phi(x_j)$来代替$x_i \cdot x_j$,通过这种核技巧,来使用支持向量机解决非线性分类的问题。

可以通过判断一个函数$K(x,z)$是不是正定核函数来判断其是不是核函数,这里不再详细阐述,可以参考文献[1]中P118页7.3.2小节。常用的核函数有多项式核函数、高斯核函数和字符串核函数。

非线性支持向量机学习算法

算法:非线性支持向量机学习算法

输入训练数据集$T$,输出分类决策函数。

(1) 选择适当的核函数$K(x,z)$和惩罚系数$C > 0$,构造并求解最优化问题:

$$\min\_{\alpha}\;\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jK(x_i,x_j) - \sum_{i=1}^{N}\alpha_i$$

$$s.t. \;\; \sum_{i=1}^{N}\alpha_iy_i=0, \; 0 \leq \alpha_i \leq C, \;\; i=1,2,...,N$$

求得最优解$\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},...,\alpha_N^{*})$。

(2) 选择$\alpha^{*}$的一个正分量$0 < \alpha_j^{*} < C$ 计算

$$b^{*}=y_i-\sum_{i=1}^{N}\alpha_i^{*}y_iK(x_i \cdot x_j)$$

(3) 求得分类决策函数:

$$f(x)=sign(\sum_{i=1}^{N}\alpha_i^{*}y_iK(x \cdot x_i)+b^{*})$$

当$K(x,z)$是正定核函数时,上述最优化问题是凸二次规划问题,解释存在的。

序列最小最优化算法


序列最小最优化算法(SMO)是支持向量机学习的一种快速算法,其特点是不断地将原二次规划问题分解为只有两个变量的二次规划子问题,并对子问题进行解析求解,直到所有变量满足KKT的条件为止。参考文献[1]中P124,7.4节已经讲的很清楚,想详细了解的可以进行扩展推导阅读。

小结


文章大部分参考了文献[1],针对SVM进行了一个简要明了的整理,展现了支持向量机的主干,想要了解推导更为细节的枝叶可自行根据以下参考文献进行阅读。

参考文献


[1] 统计学习方法.李航

[2] 支持向量机通俗导论

[3] 拉格朗日对偶性


版权声明:本文为博主原创文章,转载请注明出处 本文总阅读量    次