May 02, 2018

查准率和查全率

以二分类的带标签有监督学习问题为例

正误正反例

其中,每一个输入特征x对应着一个标签y,形成一个样本(x,y)

y∈Y = {+1,-1} 也就是样本又由正例和反例组成

将样本空间划分为数据集和测试集,

根据某个二分类方法C在测试集上的测试结果是否正确,其测试结果有四种情况:

真正例 TP

假正例 FP

假反例 FN

真反例 TN

比如 TP 就是正确的标记为正,即正确分类的正例,TN 就是正确的标记为反例

举例来说

FP 就是错误地把反例分为正例,比如把

FN 错误地把正例分为反例

现在我们使用C对测试集进行分类,并分别用四种情况的缩写代表其对应情况的样例个数。

......

April 13, 2018

我胡汉三

大四后的

研一的

生活不好过

从去年暑假到现在

才缓过来

和过去再见很痛苦

干活很痛苦

学习受打击

farbox让用一个什么新产品

没什么心态写

CSDN没farbox好用

回来发现我的账户还没死

还是farbox良心啊…

总之……

我胡汉三又回来啦!

April 13, 2018

【matlab】 高斯点生成和PAC

```matlab code

MU1 = [0 0]

MU2 = [10 10]

SIGMA1 = [1 0;0 1]

SIGMA2 = [1 0;0 1]

X = [mvnrnd(MU1, SIGMA1, 1000);mvnrnd(MU2, SIGMA2, 1000)];

plot(X(:,1),X(:,2),'*');

coeff = pca(X)

[E, D] = eig(coeff)

hold on

f = @(x)(E(1)*x+E(3))

f1 = @(x)(E(2)*x+E(4))

x=[-4:0.1:14];

plot(x,f(x))

plot(x,f1(x......

August 04, 2017

kNN 约会网站

dataset

数据集datingTestSet.txt

x1每年获得的飞行常客里程数 x2玩视频游戏所消耗的时间 x3每周消费的冰淇淋公升数

y{largeDoses,smallDoses,didntLike}

40920 8.326976 0.953952 largeDoses

14488 7.153469 1.673904 smallDoses

26052 1.441871 0.805124 didntLike

75136 13.147394 0.428964 didntLike

38344 1.66......

August 03, 2017

kNN简介

k临近(k-Nearest Neighbor)学习,是一种常用的监督学习方法

特点

优点:精度高、对异常之不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

使用数据范围:数值型和标称型

说明

k-NN没有显示的学习过程,是一lazy learning的代表,因为它有了数据集后没有所谓的“训练阶段”,并不首先对数据集中的样本进行处理和学习。

原理

存在由许多样本构成的数据集,包括许多特征值及其向量还有标签和标签值:

样本数据集(training set):{features:x, labels:y}

这样样本空间的维度就是features的个数,然后每个train......