常用概念
风险函数(期望损失):理论模型$$f(X)$$关于联合分布$$P(X,Y)$$的平均意义下的损失:
$$ R{exp} = E_P[L(Y,f(X))] = \int{x\times y}L(y,f(x))P(x,y)dxdy
$$ 经验风险(经验损失)模型$$f(X)$$关于训练数据集的的平均损失
$$ R{emp}(f)=\frac{1}{N}\sum{i=1}^NL(y_i,f(x_i))
$$ 结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略,结构风险最小化等价于正则化(regularization).结构风险在经验风险上加上表示模型复杂度的正则项,在假设空间,损失函数以及训练数据集确定的情况下,结构化风险的定义是:
$$ R{srm} = \frac{1}{N}\sum{i=1}^NL(y_i,f(x_i))+\lambda J(f)
$$
$$J(f)$$表示模型复杂度,是定义在假设空间$$F$$上的泛函。模型f越复杂,复杂度$$J(f)$$越大;繁殖模型f越简单,复杂度$$J(f)$$就越小。也就是说复杂度表示了对复杂模型的惩罚,$$\lambda\geq0$$是稀疏,用以权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度同时小。 简单交叉验证:首先随机的将给定的数据分为两部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下(例如不同的参数数目)训练模型,从而得到不同的模型;测试集上评价各个模型的测试误差,选择测试误差最小的模型。 S折交叉验证:随机的将数据且分为S个互不相交大小相同的子集;然后利用S-1子集数据训练模型,余下的子集测试模型;将这一过程对可能的S中选择重复进行,最后选出S次评价中平均测试误差最小的模型。 留以交叉验证:s折交叉验证的特殊情形是S=N,称为留1交叉验证,往往在数据缺乏的情况下使用。这里的N是给定数据集的容量。 泛化误差:如果学到的模型是$$\hat{f}$$,那么用这个模型对未知数据预测的误差称为泛化误差:
$$ E{exp}(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int{x\times y}L(y,\hat{f}(x))P(x,y)dxdy
$$
- TP:将正类预测为正类
- FN:将正类预测为负类
- FP:将负类预测为正类
- TN:将负类预测为负类 精确率:
$$ P=\frac{TP}{TP+FP}
$$ 召回率:
$$ R = \frac{TP}{TP+FN}
$$
$$F_1$$表示召回率和精确率的调和值
$$ \frac{2}{F_1} = \frac{1}{P}+\frac{1}R{}
$$ 用于分类的统计学习方法:KNN,感知机,朴树贝叶斯,决策树,决策列表,逻辑斯谛回归模型,SVM,提升方法,贝叶斯网络,神经网络,Winnow。
标注也是监督学习问题,标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使他能对观测序列给出标记序列作为预测。 标注问题的常用机器学习方法有隐马尔科夫模型条件随机场。
信息抽取的例子: 从英文文章中抽取基本名词短语。为此,对文章进行标注。英文单词是一个观测,因为句子是一个观测序列,标记表示名词短语的开始,结束或其他(B,E,O表示),标记序列表示英文句子中基本名字短语的所在位置。信息抽取时,将标记开始到结束的单词作为名词短语。例如,给出一下的观测数列,集英文句子,标注系统产生相应的标记序列,给出句子中的基本名词短语。 输入:At Microsoft Research,we have an insatiable curiosity and desire to create new technology that will help define the computing experience. 输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B curiosity/E and/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.