常用概念

风险函数(期望损失)：理论模型$$f(X)$$关于联合分布$$P(X,Y)$$的平均意义下的损失:

$$ R{exp} = E_P[L(Y,f(X))] = \int{x\times y}L(y,f(x))P(x,y)dxdy

$$ 经验风险(经验损失)模型$$f(X)$$关于训练数据集的的平均损失

$$ R{emp}(f)=\frac{1}{N}\sum{i=1}^NL(y_i,f(x_i))

$$ 结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略，结构风险最小化等价于正则化(regularization).结构风险在经验风险上加上表示模型复杂度的正则项，在假设空间，损失函数以及训练数据集确定的情况下，结构化风险的定义是:

$$ R{srm} = \frac{1}{N}\sum{i=1}^NL(y_i,f(x_i))+\lambda J(f)

$$J(f)$$表示模型复杂度，是定义在假设空间$$F$$上的泛函。模型f越复杂，复杂度$$J(f)$$越大；繁殖模型f越简单，复杂度$$J(f)$$就越小。也就是说复杂度表示了对复杂模型的惩罚，$$\lambda\geq0$$是稀疏，用以权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度同时小。简单交叉验证：首先随机的将给定的数据分为两部分，一部分作为训练集，另一部分作为测试集；然后用训练集在各种条件下(例如不同的参数数目)训练模型，从而得到不同的模型；测试集上评价各个模型的测试误差，选择测试误差最小的模型。 S折交叉验证：随机的将数据且分为S个互不相交大小相同的子集；然后利用S-1子集数据训练模型，余下的子集测试模型；将这一过程对可能的S中选择重复进行，最后选出S次评价中平均测试误差最小的模型。留以交叉验证：s折交叉验证的特殊情形是S=N,称为留1交叉验证，往往在数据缺乏的情况下使用。这里的N是给定数据集的容量。泛化误差：如果学到的模型是$$\hat{f}$$,那么用这个模型对未知数据预测的误差称为泛化误差:

$$ E{exp}(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int{x\times y}L(y,\hat{f}(x))P(x,y)dxdy

TP:将正类预测为正类
FN:将正类预测为负类
FP:将负类预测为正类
TN:将负类预测为负类精确率：

$$ P=\frac{TP}{TP+FP}

$$ 召回率:

$$ R = \frac{TP}{TP+FN}

$$F_1$$表示召回率和精确率的调和值

$$ \frac{2}{F_1} = \frac{1}{P}+\frac{1}R{}

$$ 用于分类的统计学习方法:KNN,感知机，朴树贝叶斯，决策树，决策列表，逻辑斯谛回归模型，SVM，提升方法，贝叶斯网络，神经网络，Winnow。

标注也是监督学习问题，标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型，使他能对观测序列给出标记序列作为预测。标注问题的常用机器学习方法有隐马尔科夫模型条件随机场。

信息抽取的例子：从英文文章中抽取基本名词短语。为此，对文章进行标注。英文单词是一个观测，因为句子是一个观测序列，标记表示名词短语的开始，结束或其他(B,E,O表示)，标记序列表示英文句子中基本名字短语的所在位置。信息抽取时，将标记开始到结束的单词作为名词短语。例如，给出一下的观测数列，集英文句子，标注系统产生相应的标记序列，给出句子中的基本名词短语。输入:At Microsoft Research,we have an insatiable curiosity and desire to create new technology that will help define the computing experience. 输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B curiosity/E and/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

机器学习2

常用概念

results matching ""

No results matching ""