今天在看最小二乘回归(least squares regression)时看到作者把positive examples设成1,把negative examples设成0。感觉对这个概念既熟悉又陌生,查了一下之后一下子想起来了。在机器学习中,数据预处理一般包括数据清洗、数据集成、数据采样。而正负样本涉及到了数据采样的问题,因此后面也提一下。
正样本和负样本
简单来说,和概率论中类似,一般我们看一个问题时,只关注一个事件(希望它发生或者成功,并对其进行分析计算),而正样本就是属于我们关注的这一类别的样本,负样本就是指不属于该类别的样本。
数据采样平衡
一般来说,比如我们训练分类器时,希望样本中正负样本的比例是接近于1:1的。因为如果正样本占比很大(比如90%)或者负样本占比远超正样本,那么训练结果可想而知,获得的分类器在测试中的效果会很差。
针对这种数据不平衡的问题,有以下三种solution: