贝叶斯分类器

后验概率最大化分类准则
以条件概率分布\(P(Y|X)\)而非决策函数\(f(x)\)(如支持向量机)为模型的分类方法。一般地,先从训练集\(T=\{(x_i,y_i)\}\)学得条件概率分布\(P(Y|X)\),再对新数据x按照后验概率最大化原则确定预测\(\hat y\),即\[\hat y = \arg\max_{y\in \mathbb Y} P(y|x).\]约定\(|D|=N, x_i\in \mathbb R^n, \mathbb Y =\{c_1,\cdots,c_K\}\).

将x的类别预测为\(c_i\)的期望损失为\[R(Y=c_i|x)=\sum_{j=1}^K \lambda_{ij}\cdot P(Y=c_j|x),\] 其中\(\lambda_{ij}\)是把属于\(c_j\)的样本判定为\(c_i\)的损失。
根据贝叶斯决策论,最优预测应满足\[\hat y =\arg\min_{c_i} R(Y=c_i|x).\]
对于给定x可以直接建模\(P(c|x)\)来预测c,这样的模型称为判别式模型;对于先对联合概率分布\(P(x,c)\)建模,再由此获得\(P(c|x)\), 这样得到的是生成式模型。根据贝叶斯公式:\[P(Y=c_i|x) = \frac{P(x|Y=c_i)\cdot P(Y=c_i)}{\sum\limits_{k=1}^K P(x|Y=c_k)\cdot P(Y=c_k)}\]先由训练样本集学得先验概率分布\(P(Y)\)和条件概率分布\(P(X|Y)\). 然后即可计算\(P(c_i|x)\).

逻辑斯蒂回归模型
逻辑斯蒂回归模型直接以参数形式给出条件概率分布\(P(Y|X)\).

对于二项逻辑斯蒂回归模型,即\(\mathbb Y = \{c_1,c_2\}\), 二项逻辑斯蒂回归模型是如下的后验概率分布:\[P(c_1|x) = \frac{\exp(w\cdot x + b)}{1+\exp(w\cdot x + b)}\]\[P(c_2|x) = \frac{1}{1+\exp(w\cdot x + b)}\]对于输入实例x, 二项逻辑斯蒂回归按照后验概率最大化原则对x进行分类,即\[y = \arg\max_{c_i} P(c_i|x)\]这等价于\[y=c_1\Leftrightarrow w\cdot x + b > 0.\]

对于多分类任务\(\mathbb Y = \{c_1,\cdots,c_K\}\), 多项逻辑斯蒂回归模型即\[P(c_k|x) = \frac{\exp(w_k\cdot x + b_k)}{1+\sum\limits_{k=1}^{K-1}\exp(w_k\cdot x + b_k)}\quad (1\le k \le K-1)\]而对于\(c_K\)分子为1.

参数的极大似然估计:假定\(\mathbb Y = \{0,1\}\), 用\(\theta=(w,b)\)表示参数,令\[p(x;\theta) = P(Y=1|x)\]则似然函数为\[L(\theta) = \prod_{i=1}^N p(x_i;\theta)^{y_i}\cdot (1-p(x_i;\theta))^{1-y_i}\]转化为对数似然函数后可采用梯度下降等方法求解。

朴素贝叶斯分类器
基于贝叶斯公式估计后验概率的主要困难在于类条件概率\(P(x|c)\)是所有属性上的联合概率,难以直接估计。为此,朴素贝叶斯分类器采用了属性条件独立性假设。设第j维特征\(X^j\)的可能取值为\(a_1^j,\cdots,a_{m_j}^j\), 则先验概率分布的极大似然估计为\[\hat P(Y=c_k) = \frac{\sum\limits_{i=1}^N \mathbb I(y_i=c_k)}{N}\]对于每个类\(c_k\)及第j维特征,条件概率分布的极大似然估计为\[\hat P(X^j=a_l^j|Y=c_k) = \frac{\sum\limits_{i=1}^N \mathbb I(x_i^j=a_l^j, y_i=c_k)}{\sum\limits_{i=1}^N \mathbb I (Y_i=c_k)}.\]
对于新的输入\(x=(x^1,\cdots, x^n)\), 后验概率\[\hat P(Y=c_k|x)=\frac{(\prod\limits_i^n \hat P(X^i=x^i|Y=c_k))\hat P(Y=c_k)}{\sum\limits_l^K((\prod\limits_i^n \hat P(X^i=x^i|Y=c_l))\hat P(Y=c_l))}\]由于所有类别的分母项相同,故实际预测时取分子最大的一类即可。

注意到某维特征的取值\(X^i=x^i\)和类别\(c_k\)可能没有同时在训练样本中出现,导致其极大似然估计为0. 采用贝叶斯估计可以避免这种情况。贝叶斯估计通过对频数加以常数\(\lambda\ge 0\)来进行平滑,其中\(\lambda=1\)时称为Laplace平滑:\[\hat P_\lambda(Y=c_k) = \frac{\sum\limits_{j=1}^N \mathbb I(y_i=c_k) + \lambda}{N+K\lambda}\]条件概率分布的贝叶斯估计为\[\hat P_\lambda(X^j=a_l^j|Y=c_k) = \frac{\sum\limits_{i=1}^N \mathbb I(x_i^j=a_l^j, y_i=c_k)+\lambda}{\sum\limits_{i=1}^N \mathbb I (Y_i=c_k)+m_j\lambda}.\]

    所属分类:机器学习     发表于2022-05-19