Bayesian Theorem
根据概率论中的贝叶斯公式,有:
- $p(\omega_i)$是先验概率
- $p(x,\omega_i)$是联合概率分布
- $p(x)$是总体密度
- $p(x|\omega_i)$是第$i$类x的概率密度,即类条件概率
这样,后验概率就转换成先验概率与类条件概率密度的乘积,再用总体密度进行归一化。这就是贝叶斯决策。
最小错误率准则
使错误率最小的分类决策,就是使后验概率最大。默认情况下,贝叶斯决策就是最小错误率决策。其中,后验概率用贝叶斯公式求得:
最小错误率可以表示多种形式,比如:
如果$p(x|\omega_1)p(\omega_1)P(\omega_1)>p(x|\omega_2)p(\omega_2)P(\omega_2)$,则$x\in\omega_1$;反之,则$x\in\omega_2$
似然比
先验概率$p(\omega_i)$是事先确定的,与当前样本$x$无关,这样可以实现计算似然比$\lambda$,对每一个样本计算$l(x)$作比较
为了计算,有时候使用对数似然比
错误率
不同类的分界线称作决策边界,在多维情况下称为决策面,它把特征空间划分成属于各类的区域。
对二分类问题的错误率分析:
其中,$P_1(e)$是把第一类错判成第二类的错误率,$P_2(e)$是把第二类错判成第一类的错误类。
多决策
假如不是二分类,就要把特征空间分割成$\mathcal{R_1},\mathcal{R_2},…,\mathcal{R_n}$个区域,可能错分的情况就很多,平均错误率$P(e)$将有$c(c-1)$项,一共$c$行,每行$c-1$列。
可以通过计算平均正确率$P(c)$来降低计算量:
最小风险准则
所谓最小风险准则,就是考虑各种错误造成损失不同时的一种最优决策。
- 样本$x$看作$d$维随机向量:$x=[x_1,x_2,…,x_d]^T$
- 状态空间$\Omega$由$c$个可能的状态($c$类)组成:$\Omega=\{\omega_1,\omega_2,…,\omega_c\}$
- 对$x$可能采取的决策组成决策空间,由$k$个决策组成:$\mathcal{A}=\{\alpha_1,\alpha_2,…,\alpha_k\}$
- 对实际为$\omega_j$的x采取决策$\alpha_i$所带来的损失为$\lambda(\alpha_i,\omega_j),i=1,…,k, j=1,…,c$
这里没有假定$k=c$,是因为允许拒绝决策,比如不属于任何一类,这是更一般的情况。决策损失可以列出一个$k$行$c$列的决策表。
对于某一个样本属于各个状态的后验概率是$P(\omega_j|x),j=1,…,c$,对它采取决策$\alpha_i,i=1,…,k$ 的期望损失是:
设某一个决策$\alpha(x)$,它对特征空间中所有可能的样本采用决策所造成的期望损失是$R(\alpha)$,称为平均/期望风险,令它最小就是最小风险准则。
以二分类为例,
关于决策表,可以写成矩阵吧,对角线一般都是0,最小错误率准则就是0-1决策表,而最小风险准则就是有了不同的参数.
两类错误率、Neyman-Pearson决策与ROC曲线
待续