吃瓜学习笔记1

type

status

date

slug

summary

📝 第一章绪论

1.基本术语

关键术语	解释	注意
示例(instance)/样本(sample)	是关于一个事件或对象的描述	有时候整个数据集也被称为一个”样本“，因为它可以看作对样本空间的一个采样，故需要通过上下文判断”样本“为单个示例还是整个数据集。
属性(attribute)/特征(feature)	反映事物在某方面的表现或性质的事项	一般情况下，若某个样本有d个属性，则该样本空间即为d维样本空间，由于每一个示例都在该空间上对应一个点，每一个点对应一个坐标向量，故可以把一个示例称为一个特征向量
训练/学习	从数据中学得模型的过程	ㅤ
测试(test)	学得模型后，用其进行预测的过程	ㅤ
标记	在学习样本在某个方面的表现是否存在潜在的规律，我们称该方面的信息为"标记”	1.当标记取值为离散型时，称此类任务为"分类“；当标记取值为连续型时，称此类任务为"回归” 2.在模型训练阶段有用到标记信息时，称此类任务为"监督学习"；在模型训练阶段没用到标记信息时，称此类任务为"无监督学习"，
泛化	机器学习所学得模型适用于陌生数据的能力。	ㅤ
归纳偏好	机器学习算法在学习过程中对某种假设类型的偏好	机器学习算法之间没有绝对的优劣之分，只有是否适合当前待解决的问题之分 “没有免费的午餐”定理(No Free Lunch Theorem, NFL)，即脱离具体问题而空泛的谈论哪一个算法更好毫无意义！

2.发展历程

📝 第二章模型评估

1.经验误差与过拟合

错误率(error rate)：分类错误的样本数占样本总数的比例。 精度(accuracy)：精度 = 1 - 错误率。

把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。

学习器在训练集上的误差称为训练误差(training error)或经验误差(empirical error)

在新样本上的误差称为泛化误差(generalization error)

过拟合:学习器把训练样本学习的太好了，已经把训练样本自身的特点当做了所有潜在样本会存在的一般性质，会导致泛化性能下降，这种现象称为过拟合(overfitting)。欠拟合:与过拟合恰恰相反。

注意：欠拟合通常是因为学习能力低下而导致的，这一点可以较容易克服，然而过拟合是无法彻底避免的，所能做的只有运用各种方法来缓解

2.评估方法

留出法(hold-out）	直接将数据集D划分为两个互斥的集合，其中一个作为训练集S，另一个作为测试集T，保证S∩T=∅且S∪T=D	训练集与测试集的划分要尽可能保证数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响
交叉验证法(cross validation)	将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪…∪Dk，Di∩Dj=∅(i≠j)。每个子集Di都尽可能保持数据分布的一致性，即从D中分层采样得到。然后每次用k-1个子集的并集作为训练集，剩下的那个子集作为测试集，这样就可以得到k组训练/测试集，从而进行k次训练和测试，最终返回这k次测试的均值	k折交叉验证(k-fold cross validation)
自助法(bootstrapping)	给定包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次从D中随机选一个样本，将其拷贝如D’中，再将其放回D中，重复m次，那么就可以得到包含m个样本的数据集D	自助法在数据量较少，难以有效划分训练集和测试集的时候很有用，然而自助法改变了初始数据分布，引入了估计偏差，故在数据量足够的时候，留出法和交叉验证法更常用一些
ㅤ	ㅤ	ㅤ

疑问

📎 参考文章

引用datawhale

引用CSDN博客

📝 第一章 绪论