![Python机器学习:基于PyTorch和Scikit-Learn](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/48280083/b_48280083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.1 本书中使用的符号和约定
鸢尾花(Iris)数据集是机器学习领域中的一个经典数据集(更多信息请参考https://archive.ics.uci.edu/ml/datasets/iris)。图1.8展示了鸢尾花数据集的部分数据。鸢尾花数据集包含了150朵鸢尾花的测量结果,这些鸢尾花来自三个种类:山鸢尾、变色鸢尾和弗吉尼亚鸢尾。
数据集中的每一行代表一朵花的样本数据,数据集中的每一列存储花卉的度量值(单位为厘米),也被称为数据集的特征。
为了简单而高效地实现符号表示,本书将使用线性代数的一些基础知识。后续章节使用矩阵符号来表示数据。遵循通用约定,矩阵中的每一行代表一个样本,矩阵中的每一列代表一个特征。
鸢尾花数据集包含150个样本和4个特征,可以表示为150行4列的矩阵,即X∈R150×4:
![](https://epubservercos.yuewen.com/BD52F6/27820891102970806/epubprivate/OEBPS/Images/35_01.jpg?sign=1739288131-PxJ6GVfmx0L6Z5ZhTWwUDjMSmAc77db1-0-c5504991adce1c32aa88bef5b38b3195)
![](https://epubservercos.yuewen.com/BD52F6/27820891102970806/epubprivate/OEBPS/Images/35_02.jpg?sign=1739288131-Om19znaPhTyF8gVjHzlH0aByvoqoqWn4-0-62f1ca93a64061da32c07945f488f4d5)
图1.8 鸢尾花数据集的部分数据
符号约定
除非特别说明,本书使用上标i表示第i个训练样本,下标j表示一个训练样本的第j维的值。
本书使用粗体的小写字母(x∈Rn×1)表示向量,使用粗体大写字母(X∈Rn×m)表示矩阵。采用斜体字母表示向量中的一个元素(即x(n))或矩阵中的一个元素(即)。
例如,表示第150个鸢尾花样本第一维的值,即萼片长度。X矩阵的每一行代表一朵花的数据,可以写成4维行向量x(i)∈R1×4:
![](https://epubservercos.yuewen.com/BD52F6/27820891102970806/epubprivate/OEBPS/Images/35_05.jpg?sign=1739288131-uqVgWuOIWdV8GMVPKoBSzC2Jjs8drn2d-0-843a6e596ed88807a6e9aac77dd6d5af)
每个特征都是一个150维的列向量X(i)∈R150×1,例如:
![](https://epubservercos.yuewen.com/BD52F6/27820891102970806/epubprivate/OEBPS/Images/36_01.jpg?sign=1739288131-im2QaLVC5BffUiLe0f0zwOqd1SKzFBo2-0-a0955ea181e8ea4d4bbde6419af212c0)
类似地,可以把目标变量(这里指的是类别标签)表示为一个150维的列向量:
![](https://epubservercos.yuewen.com/BD52F6/27820891102970806/epubprivate/OEBPS/Images/36_02.jpg?sign=1739288131-QqjBYiAY5hKKpZpu4MoutEBaXAl0aJEW-0-c3121273c5d72d12bc950195c0a1ec04)
其中y(i)∈{山鸢尾,变色鸢尾,弗吉尼亚鸢尾}。