type
status
date
slug
summary
tags
category
icon
password
comment
来自datawhale的组队学习,学习南瓜书和西瓜书,简称吃瓜
📝 第一章 绪论
1.基本术语
关键术语 | 解释 | 注意 |
示例(instance)/样本(sample) | 是关于一个事件或对象的描述 | 有时候整个数据集也被称为一个”样本“,因为它可以看作对样本空间的一个采样,故需要通过上下文判断”样本“为单个示例还是整个数据集。 |
属性(attribute)/特征(feature) | 反映事物在某方面的表现或性质的事项 | 一般情况下,若某个样本有d个属性,则该样本空间即为d维样本空间,由于每一个示例都在该空间上对应一个点,每一个点对应一个坐标向量,故可以把一个示例称为一个特征向量 |
训练/学习 | 从数据中学得模型的过程 | ㅤ |
测试(test) | 学得模型后,用其进行预测的过程 | ㅤ |
标记 | 在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为"标记” | 1.当标记取值为离散型时,称此类任务为"分类“;当标记取值为连续型时,称此类任务为"回归” 2.在模型训练阶段有用到标记信息时,称此类任务为"监督学习";在模型训练阶段没用到标记信息时,称此类任务为"无监督学习", |
泛化 | 机器学习所学得模型适用于陌生数据的能力。 | ㅤ |
归纳偏好 | 机器学习算法在学习过程中对某种假设类型的偏好 | 机器学习算法之间没有绝对的优劣之分,只有是否适合当前待解决的问题之分 “没有免费的午餐”定理(No Free Lunch Theorem, NFL),即脱离具体问题而空泛的谈论哪一个算法更好毫无意义! |
2.发展历程
📝 第二章 模型评估
1.经验误差与过拟合
错误率(error rate):分类错误的样本数占样本总数的比例。
精度(accuracy):精度 = 1 - 错误率。
把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。
学习器在训练集上的误差称为训练误差(training error)或经验误差(empirical error)
在新样本上的误差称为泛化误差(generalization error)
过拟合:学习器把训练样本学习的太好了,已经把训练样本自身的特点当做了所有潜在样本会存在的一般性质,会导致泛化性能下降,这种现象称为过拟合(overfitting)。
欠拟合:与过拟合恰恰相反。
注意:欠拟合通常是因为学习能力低下而导致的,这一点可以较容易克服,然而过拟合是无法彻底避免的,所能做的只有运用各种方法来缓解
2.评估方法
留出法(hold-out) | 直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T,保证S∩T=∅且S∪T=D | 训练集与测试集的划分要尽可能保证数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响 |
交叉验证法(cross validation) | 将数据集D划分为k个大小相似的互斥子集,即D=D1∪D2∪…∪Dk,Di∩Dj=∅(i≠j)。每个子集Di都尽可能保持数据分布的一致性,即从D中分层采样得到。然后每次用k-1个子集的并集作为训练集,剩下的那个子集作为测试集,这样就可以得到k组训练/测试集,从而进行k次训练和测试,最终返回这k次测试的均值 | k折交叉验证(k-fold cross validation) |
自助法(bootstrapping) | 给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次从D中随机选一个样本,将其拷贝如D’中,再将其放回D中,重复m次,那么就可以得到包含m个样本的数据集D | 自助法在数据量较少,难以有效划分训练集和测试集的时候很有用,然而自助法改变了初始数据分布,引入了估计偏差,故在数据量足够的时候,留出法和交叉验证法更常用一些 |
ㅤ | ㅤ | ㅤ |
疑问
📎 参考文章
- 引用CSDN博客