type
status
date
slug
summary
tags
category
icon
password
comment
😀
来自datawhale的组队学习,学习南瓜书和西瓜书,简称吃瓜
 

📝 第一章 绪论

1.基本术语

关键术语
解释
注意
示例(instance)/样本(sample)
是关于一个事件或对象的描述
有时候整个数据集也被称为一个”样本“,因为它可以看作对样本空间的一个采样,故需要通过上下文判断”样本“为单个示例还是整个数据集。
属性(attribute)/特征(feature)
反映事物在某方面的表现或性质的事项
一般情况下,若某个样本有d个属性,则该样本空间即为d维样本空间,由于每一个示例都在该空间上对应一个点,每一个点对应一个坐标向量,故可以把一个示例称为一个特征向量
训练/学习
从数据中学得模型的过程
测试(test)
学得模型后,用其进行预测的过程
标记
在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为"标记”
1.当标记取值为离散型时,称此类任务为"分类“;当标记取值为连续型时,称此类任务为"回归” 2.在模型训练阶段有用到标记信息时,称此类任务为"监督学习";在模型训练阶段没用到标记信息时,称此类任务为"无监督学习",
泛化
机器学习所学得模型适用于陌生数据的能力。
归纳偏好
机器学习算法在学习过程中对某种假设类型的偏好
机器学习算法之间没有绝对的优劣之分,只有是否适合当前待解决的问题之分 “没有免费的午餐”定理(No Free Lunch Theorem, NFL),即脱离具体问题而空泛的谈论哪一个算法更好毫无意义!

2.发展历程

 

📝 第二章 模型评估

1.经验误差与过拟合

错误率(error rate):分类错误的样本数占样本总数的比例。 精度(accuracy):精度 = 1 - 错误率。
把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。
学习器在训练集上的误差称为训练误差(training error)或经验误差(empirical error)
在新样本上的误差称为泛化误差(generalization error)
过拟合:学习器把训练样本学习的太好了,已经把训练样本自身的特点当做了所有潜在样本会存在的一般性质,会导致泛化性能下降,这种现象称为过拟合(overfitting)。 欠拟合:与过拟合恰恰相反。
注意:欠拟合通常是因为学习能力低下而导致的,这一点可以较容易克服,然而过拟合是无法彻底避免的,所能做的只有运用各种方法来缓解

2.评估方法

留出法(hold-out)
直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T,保证S∩T=∅且S∪T=D
训练集与测试集的划分要尽可能保证数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响
交叉验证法(cross validation)
将数据集D划分为k个大小相似的互斥子集,即D=D1∪D2∪…∪Dk,Di∩Dj=∅(i≠j)。每个子集Di都尽可能保持数据分布的一致性,即从D中分层采样得到。然后每次用k-1个子集的并集作为训练集,剩下的那个子集作为测试集,这样就可以得到k组训练/测试集,从而进行k次训练和测试,最终返回这k次测试的均值
k折交叉验证(k-fold cross validation)
自助法(bootstrapping)
给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次从D中随机选一个样本,将其拷贝如D’中,再将其放回D中,重复m次,那么就可以得到包含m个样本的数据集D
自助法在数据量较少,难以有效划分训练集和测试集的时候很有用,然而自助法改变了初始数据分布,引入了估计偏差,故在数据量足够的时候,留出法和交叉验证法更常用一些

疑问

 

📎 参考文章