支持向量机原理整理

机器学习

Word count: 1,558 / Reading time: 6 min

 2018/12/28  Share

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

拉格朗日对偶性

支持向量机的求解过程用到了拉格朗日对偶性。考虑原始的带约束的最优化问题，具有如下形式：

$\begin{aligned} \min_w \quad & f(w) \\ s.t. \quad & g_i(w) \leq 0, \, \, i=1,\cdots,k \\ & h_i(w) = 0, \, \, i=1,\cdots,l. \end{aligned}$

为了解决上述问题，定义广义的拉格朗日函数：

$\mathcal{L}(w,\alpha,\beta) = f(w) + \sum_{i=1}^k\alpha_ig_i(w) + \sum_{i=1}^l \beta_ih_i(w)$

其中的$\alpha_i$和$\beta_i$称作拉格朗日乘子，然后考虑$w$的函数：

$\theta_{\mathcal{P}}(w) = \max_{\alpha,\beta:\alpha_i \geq 0} \mathcal{L}(w, \alpha, \beta)$

其中的下标$\mathcal{P}$代表英文中的“primal”，意为原始问题。如果$w$满足限制条件的话，可以发现$\theta_{\mathcal{P}}(w) = f(w)$，因此最初的带约束的最优化问题等价于下面的式子：

$\min_w \theta_{\mathcal{P}} (w) = \min_w \max_{\alpha,\beta:\alpha_i \geq 0} \mathcal{L}(w, \alpha, \beta)$

下面定义对偶优化问题：

$\theta_{\mathcal{D}}(\alpha, \beta) = \min_w \mathcal{L}(w, \alpha, \beta)$ $\max_{\alpha,\beta,\alpha_i \geq 0} \theta_{\mathcal{D}}(\alpha, \beta) = \max_{\alpha,\beta,\alpha_i \geq 0} \min_w \mathcal{L}(w, \alpha, \beta)$

对偶问题和原始问题仅仅交换了$\min$和$\max$的顺序。由于一个函数的最小值的最大值（max min）一定小于等于其最大值的最小值（min max），所以有：

$\max_{\alpha,\beta,\alpha_i \geq 0} \min_w \mathcal{L}(w, \alpha, \beta) \leq \min_w \max_{\alpha,\beta:\alpha_i \geq 0} \mathcal{L}(w, \alpha, \beta)$

然而在满足约束条件时，它们两者是相等的，所以可以通过求解对偶问题来求解原始问题。

原始问题和对偶问题的解$\alpha^\star, \beta^\star, w^\star$满足KKT条件，同时满足KKT条件的$\alpha^\star, \beta^\star, w^\star$也是原始问题和对偶问题的解，KKT条件如下：

$\begin{aligned} \frac{\partial}{\partial w_i} \mathcal{L}(w^\star, \alpha^\star, \beta^\star) & = 0, \quad i = 1,\cdots,n \\ \frac{\partial}{\partial \beta_i} \mathcal{L}(w^\star, \alpha^\star, \beta^\star) & = 0, \quad i = 1,\cdots,l \\ \alpha_i^\star g_i(w^\star) & = 0, \quad i = 1,\cdots,k \\ g_i(w^\star) & \leq 0, \quad i = 1,\cdots,k \\ \alpha^\star & \geq 0, \quad i = 1,\cdots,k \end{aligned}$

线性可分支持向量机

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为$w^\star \cdot x + b^\star = 0$，以及相应的分类决策函数$f(x) = sign(w^\star \cdot x + b^\star)$称为线性可分支持向量机。

函数间隔：函数间隔可以表示分类预测的正确性及确信度。对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b)$关于样本点$(x_i, y_i)$的函数间隔为

$\hat{\gamma_i} = y_i(w \cdot x_i + b)$

定义超平面$(w, b)$关于训练数据集T的函数间隔为超平面$(w, b)$关于T中所有样本点$(x_i, y_i)$的函数间隔之最小值，即

$\hat{\gamma} = \min_{i=1,\cdots,N} \hat{\gamma_i}$

几何间隔：函数间隔的问题在于，如果同时将$w$和$b$扩大两倍，函数间隔会变成原来的两倍，但是超平面却没有改变。此时可以对超平面的法向量$w$加一些约束，如规范化，$|w| = 1$，此时间隔就是确定的，这时函数间隔就变成了几何间隔。对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b)$关于样本点$(x_i, y_i)$的几何间隔为

$\gamma_i = y_i(\frac{w}{\|w\|} \cdot x_i + \frac{b}{\|w\|})$

定义超平面$(w, b)$关于训练数据集T的几何间隔为超平面$(w, b)$关于T中所有样本点$(x_i, y_i)$的几何间隔之最小值，即

$\gamma = \min_{i=1,\cdots,N} \gamma_i$

函数间隔与几何间隔的关系：

$\gamma_i = \frac{\hat{\gamma_i}}{\|w\|}, \quad \gamma = \frac{\hat{\gamma}}{\|w\|}$

线性可分支持向量机的求解就是要求几何间隔最大，可以表示成如下的最优化问题：

$\begin{aligned} \max_{w,b} \quad & \gamma \\ s.t. \quad & y_i(\frac{w}{\|w\|} \cdot x_i + \frac{b}{\|w\|}) \geq \gamma, \quad i=1,2,\cdots,N \end{aligned}$

考虑到几何间隔和函数间隔的关系，可以改写成如下形式：

$\begin{aligned} \max_{w,b} \quad & \frac{\hat{\gamma}}{\|w\|} \\ s.t. \quad & y_i(w \cdot x_i + b) \geq \hat{\gamma}, \quad i=1,2,\cdots,N \end{aligned}$

注意到函数间隔$\hat{\gamma}$的取值并不影响最优化问题的解，所以可以取1，并且最大化$\frac{1}{|w|}$等价于最小化$\frac{1}{2}|w|^2$，所以得到如下形式的凸二次规划问题：

$\begin{aligned} \min_{w,b} \quad & \frac{1}{2}\|w\|^2 \\ s.t. \quad & y_i(w \cdot x_i + b) - 1 \geq 0, \quad i=1,2,\cdots,N \end{aligned}$

该凸二次规划问题的拉格朗日函数为：

$\mathcal{L}(w, b, \alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^N \alpha_i y_i (w \cdot x_i + b) + \sum_{i=1}^N \alpha_i$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题，因此需要先求$\mathcal{L}(w,b,\alpha)$对$w$和$b$的极小，再求对$\alpha$的极大。求$w$和$b$的极小通过偏导为0来求得：

$\begin{aligned} \nabla_w \mathcal{L}(w, b, \alpha) & = w - \sum_{i=1}^N \alpha_i y_i x_i = 0 \\ \nabla_b \mathcal{L}(w, b, \alpha) & = - \sum_{i=1}^N \alpha_i y_i = 0 \end{aligned}$

将求导结果代入其拉格朗日函数，可以得到：

$\mathcal{L}(w, b, \alpha) = \sum_{i=1}^N \alpha_i - \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j)$

然后对其求极大，转化为下面的对偶问题：

$\begin{aligned} \max_\alpha \quad & \sum_{i=1}^N \alpha_i - \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) \\ s.t. \quad & \sum_{i=1}^N \alpha_i y_i = 0 \\ & \alpha_i \geq 0, \, \, i = 1,2,\cdots,N \end{aligned}$

然后将对偶问题转化为凸优化问题，便于求解：

$\begin{aligned} \min_\alpha \quad & \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) - \sum_{i=1}^N \alpha_i\\ s.t. \quad & \sum_{i=1}^N \alpha_i y_i = 0 \\ & \alpha_i \geq 0, \, \, i = 1,2,\cdots,N \end{aligned}$

软间隔最大化

某些样本点无法满足函数间隔大于等于1的约束条件，此时可以引入松弛变量$\xi$，这样约束条件就变为$y_i(w \cdot x_i + b) \geq 1 - \xi_i$，同时对每个松弛变量$\xi_i$需要支付一定的代价，求解软间隔最大化就变成下述凸二次规划问题：

$\begin{aligned} \min_{w,b,\xi} \quad & \frac{1}{2} \|w\|^2 + C \sum_{i=1}^N \xi_i \\ s.t. \quad & y_i(w \cdot x_i + b) \geq 1 - \xi_i, \quad i = 1,2,\cdots,N \\ & \xi_i \geq 0, \quad i = 1,2,\cdots,N \end{aligned}$

可以采取相同的方式，转化为对偶问题来求解（先列出其拉格朗日方程，使其极小化，分别对$w$、$b$、$\xi_i$求偏导，使它们的偏导为0，然后代入拉格朗日方程，再使其极大化，然后转换成凸二次规划问题，就得到了下面的形式）：

$\begin{aligned} \min_\alpha \quad & \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) - \sum_{i=1}^N \alpha_i \\ s.t. \quad & \sum_{i=1}^N \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C, \quad i=1,2,\cdots,N \end{aligned}$

合页损失函数

$\begin{gathered} L(y(w \cdot x + b)) = [1 - y(w \cdot x + b)]_+ \\ [z]_+= \begin{cases} z, &z > 0 \\ 0, &z \leq 0 \end{cases} \end{gathered}$

线性支持向量机的原始最优化问题，等价于以下最优化问题（具体证明可看《统计学习方法》）：

$\min_{w,b} \quad \sum_{i=1}^N[1 - y_i(w \cdot x_i + b)]_+ + \lambda \|w\|^2$

带核函数非线性支持向量机

所谓核函数，具有如下的形式：

$K(x,z) = \phi(x) \cdot \phi(z)$

其中$\phi(x)$为映射函数，$\phi(x) \cdot \phi(z)$是$\phi(x)$和$\phi(z)$的内积。核技巧的想法是，在学习与预测中只定义核函数$K(x,z)$，而不显示地定义映射函数$\phi$。核函数需要满足一定的条件。

在求解支持向量机的对偶问题中，只用到了实例与实例之间的内积，因此可以将核技巧应用在支持向量机中，此时求解的对偶问题变成：

$\begin{aligned} \min_\alpha \quad & \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i \cdot x_j) - \sum_{i=1}^N \alpha_i \\ s.t. \quad & \sum_{i=1}^N \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C, \quad i=1,2,\cdots,N \end{aligned}$

总结

本文梳理了支持向量机的数学原理，最后都是转化为一个凸二次规划问题来求解。解决凸二次规划问题有现成的优化工具，但针对于支持向量机的求解还专门有一个名叫SMO的算法，会在下篇用python实现支持向量机的博客中详解。

参考

原文作者: Rahul

原文链接: https://rearcher.github.io/svm-fundamentals.html

发表日期: December 28th 2018, 2:28:32 pm

Next Post

用python实现支持向量机
Previous Post

用python实现决策树

CATALOG

1. 拉格朗日对偶性
2. 线性可分支持向量机
3. 软间隔最大化
4. 合页损失函数
5. 带核函数非线性支持向量机
6. 总结
7. 参考



缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true