![深度学习原理与应用](https://wfqqreader-1252317822.image.myqcloud.com/cover/232/37669232/b_37669232.jpg)
2.1 线性代数
2.1.1 矩阵
矩阵(matrix)是将一个集合中的元素按如下形式组成的一个矩形阵列:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-26-1.jpg?sign=1738930290-oVtYJqwWgRdgHHk3lOw9D8yLsr2uUf0c-0-670b297b2a416bd6da3a22046a1a27c0)
其中,元素aij以是数字,也可以是函数,阵列中横的一排称为“行”,竖的一列称为“列”。数字m×n表示这个矩列具有m行n列,这也称为矩阵的阶数。如果行中所含元素与列中所含元素相同,即m=n,这个矩阵称为方阵。
所有元素均为0的矩阵称为零矩阵。
1. 矩阵的加法
两个m×n矩阵A和B的加法定义为:其阵列中对应位置上的元素相加:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-26-2.jpg?sign=1738930290-OW55FBhaEVgU7Y8Oxdy5PXkTkfS3tcVq-0-8e84c1e8fdcb8f82c9cd2d1075c6bcaa)
矩阵加法具有以下性质:
交换律:A+B=B+A
结合律:(A+B)+C=A+(B+C)
负矩阵的存在:对于任意一个矩阵A,都存在一个负矩阵-A,使得A+(−A)=0
由此定义矩阵的减法为:A−B=A+(−B)
2. 矩阵的标量乘法
标量λ与矩阵A的乘积定义为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-1.jpg?sign=1738930290-MBKeBScsv6r45h7DKcQauNt7Grs6aTr2-0-8109840866bd51a4908c61931111753a)
矩阵标量乘法具有以下性质(λ,μ为标量):
结合律:(λμ)A=v(μA)
分配律:(λ+μ)A=λA+μA
λ(A+B)=λA+λB
3. 矩阵的乘法
设A=(aij)是阶数为m×r的矩阵,B=(bij)是阶数为r×n的矩阵,定义矩阵A与矩阵B的乘积是一个阶数为m×n的矩阵C=(cij),其中
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-2.jpg?sign=1738930290-RxicbdAHQkeQIP16vCiD815NT1tHn61p-0-0c600a27e2527c1eeef4e85599e43e09)
此矩阵乘法记为
C=AB
可以用下图表示矩阵乘法:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-3.jpg?sign=1738930290-dsr4fTrf5pV8IsMhsORPPgTfqibTARb1-0-9b3a08cf44b5c9c71ac01161f1ec7123)
矩阵乘法具有以下性质:
结合律:(AB)C=A(BC)
分配律:λ(AB)=(λA)B=A(λB)
A(B+C)=A B+AC, (B+C)A=B A+CA
单位矩阵的存在:方阵I称为单位矩阵,满足仅在对角线上的元素为1,其余为0,对于任意矩阵Am×n,有
Am×nIn=Am×n, ImAm×n=Am×n
矩阵乘法一般不满足交换律:AB≠BA,只有单位矩阵与其他矩阵相乘时才满足交换律:AI=IA。
只有具有相容阶数的两个矩阵才能相乘。所谓相容阶数,是指第一个矩阵的列数与第二个矩阵的行数相等,即:Am×r×Br×n=Cm×n
4. 转置矩阵
把矩阵A的行换成同序数的列所得到的新矩阵称为A的转置矩阵,记作
AT=[aij]T=[aji]
5. 逆矩阵
对于n阶方阵A,如果存在一个n阶矩阵B,使得
AB=BA=I
那么,称矩阵A是可逆的,矩阵B称为A的逆矩阵,记作A−1。
矩阵的转置运算和矩阵逆运算的规律有些相似和关联,见表2-1:
表2-1 矩阵的转置运算和逆运算
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-1.jpg?sign=1738930290-q04I8O7tUqqZGoeJCTDycJNi4530wwOW-0-35f81936f15e2bb0e71af31d2a75bcc2)
6. 正定矩阵
对于一个n×n的对称矩阵A,如果对于所有的非零向量,都满足:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-3.jpg?sign=1738930290-2e6H2aZzL59cZKnHqaZDBvwXDnZRGk7Z-0-10b65b3d1f49471e57f89f0c8fa578b8)
则称A为正定矩阵。
如果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-4.jpg?sign=1738930290-noMcKn1dEYYw5prxpWBkq5IIG7g8zwDS-0-fc393d6c715aa24c09a029f9306adb62)
则称A是半正定矩阵。
如果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-5.jpg?sign=1738930290-1jFlPJAeIaKnLbGFJvOhgFzJ1rfKgpjc-0-79a6e0e6737813a7cf607a0d03820094)
则称A是负定矩阵。
7. 线性变换与矩阵的关系
如果将一个m×n矩阵Am×n与一个n×1的列向量相乘,其结果是一个m×1的列向量
:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-8.jpg?sign=1738930290-tdySuxf8mYBm5YvWMhP4tpRawg3uZiCD-0-3f60899cec0da0a8c402099b0fc27d3b)
上述公式实际上是将列向量通过矩阵A变换成另一个列向量
。因此,矩阵A是向量空间映射到另一个向量空间的函数。由于矩阵运算具有线性性,即:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-11.jpg?sign=1738930290-G5esGPmFfG9i8B5QwUaKZykfEePHUCLo-0-fbfc435a84ef68dfa34693667b083c47)
因此,可以将矩阵A看作向量和向量v之间的一个线性变换:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-2.jpg?sign=1738930290-bTVE8zewdbfAJs7CbtXqzP73hUgcEeBw-0-4376489ce91569fcbe97f80f17fe6a0d)
如果矩阵A是一个方阵,经过矩阵A的线性变换后,向量的维数保持不变。有一类向量非常值得研究,这类向量经过线性变换A后,仅改变向量度,向量的方向保持不变或成反方向。这类向量称为线性变换A的特征向量,用数学表示:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-3.jpg?sign=1738930290-CV2dlvJFR8WT7Wg3cvTKfezXvAv7EWGG-0-4084195b08acfde1c53380c1731ed8bf)
数值λ称为特征值。如果λ>1,特征向量长度变长,方向保持不变;如果0<λ<1,特征变量长度变短,方向保持不变;如果λ<0,特征向量变成了反方向。
对于行向量,只要将矩阵左乘,可以得到类似的结果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-4.jpg?sign=1738930290-BT467gHrVbL4XdwUhjkJZHVRgUqoWMQP-0-b02c3f9d128f912f57854885caa808b7)
在三维空间中,习惯用行向量(x, y, z)表示空间中的一个点位置,所以,三维空间中的坐标变换使用矩阵左乘的方式。下面给出常见的平移变换(Translation Transformation)、缩放变换(Scaling)、旋转变换(Rotation)对应的矩阵。
8. 平移变换
将三维空间中的一个点(x, y, z)移动到另外一个点(x′, y′, z′),三个方向的位移分别是Tx, Ty, Tz。用方程式表示新旧点的坐标关系为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-5.jpg?sign=1738930290-yQ3fiNoYm8ZY66aZ3NQ1Ds8IeHUSNBKi-0-474373b7e8a01eb0b34d1b195e384cd6)
如果用3×3矩阵表示平移变换是不可能的,因为
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-6.jpg?sign=1738930290-jtO3MhC2NMJu5OaxUDSAOlIoUVmE5s5F-0-56709d97e9d32c9887fd905d7f98baca)
所以需要引入4×4矩阵,平移变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-7.jpg?sign=1738930290-sqmDcxS3XM7T7M8fabtH5EhaWP4vbOeq-0-38aaf8d7c5bdd87f78f1d7e300d27a0a)
9. 缩放变换
对空间中的点(x, y, z)依次按x轴、y轴、z轴方向分别缩放Sx、Sy、Sz倍,缩放变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-1.jpg?sign=1738930290-ZREp93bggs9nPob913FWZH73WJ2MqPwQ-0-8e4a3e1cf9b3c9f89b2058d9392103a0)
10. 旋转变换
这里仅给出绕坐标轴旋转的矩阵变换公式,绕任意轴的旋转变换最多需要连续做三次绕坐标轴的旋转变换。统一为按顺时针方向旋转角度θ,下面依次绕x轴、y轴、z轴进行旋转变换。
绕x轴旋转时,点的x坐标不发生变化,y坐标和z坐标绕x轴旋转θ度。绕x轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-2.jpg?sign=1738930290-IQTk3fBWSxLGeudJqyHbcBFE37V0rJDe-0-9fe70f149e2d101601de2b92a3c3f00c)
绕y轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-3.jpg?sign=1738930290-abdJcUQhQqcEKaJQShAIt9vppjwz2m10-0-b8cdf81cc8f06288db81457d8b3ab565)
绕z轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-4.jpg?sign=1738930290-tQR8KJYPBX2z1P4U29axLesKhtbvNwoA-0-8a8ecf1d4f09c0a1c758b94605221914)
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-1.jpg?sign=1738930290-Zs3DpyoEClfuy9b3d2648JUEmilVMaRc-0-b5727e40a5e09da05b57590c67757978)
11. 相似矩阵与对角矩阵
设A, B是n阶矩阵,若存在可逆矩阵P,使P−1AP=B,则称B是A的相似矩阵,也称合同矩阵,记为A~B。
定理:若n阶矩阵A与B相似,则A与B的特征多项式相同,也即有相同的特征值。
对角矩阵是比较简单的矩阵,它的特征值就是所有对角线上的元素。即矩阵Λ:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-2.jpg?sign=1738930290-Z46FpPabWni3ksznywhDrCGn1BOyHVLe-0-a308e5e141047e5d7f73b31978498795)
的特征值就是λ1, λ2, …, λn。
于是,如果有矩阵与对角矩阵相似,那么,对角矩阵的对角线上元素就是这个矩阵的特征值。
矩阵可对角化条件:
定理:n阶矩阵A与对角矩阵相似(即A能对角化)的充分必要条件是A有n个线性无关的特征向量。
2.1.2 向量
1. 向量定义及基本运算
在欧氏空间中,可以把向量看作具有方向和长度的一个量,在二、三维空间中,向量可以看成一个有向线段。
向量的数学定义为n个有序数a1, a2, …, an所组成的一个数组,n为向量的维数,数组中的第i个元素ai称为向量
的第i个分量。这个数组可以有以下两种书写形式:
列向量形式:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-5.jpg?sign=1738930290-Nlech1STK8rs99TB4ECTUVECgAHkay4l-0-c89cd79c3e59010015b92cbe680f7ee1)
行向量形式:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-6.jpg?sign=1738930290-MzrXrKoZZ5qxuXJl2eEt0TKDBBTRIk1g-0-a2cc0ae203f820533c135198d41b4e1b)
向量的运算规则:可以将一个n维向量的列形式看成一个n×1的矩阵,行形式看成一个1×n的矩阵。于是,向量的运算规则就与矩阵的运算规则一样了。
向量a的长度定义为向量自身标量积的开根号:
在欧氏空间中,如果两个向量的标量积为0,则称这两个向量垂直(或称正交)。零向量与任何向量垂直。
需要注意的是,向乘法有标量积和向量积两种,标量积的运算结果是标量,向量积的运算结果仍然是一个向量。
标量积公式为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-32-2.jpg?sign=1738930290-x9fn8lOQNlcT0ftmBrss679oSbyPxEvp-0-d6b82fcbac93c3f8e1ca3ce59edfad62)
向量积运算结果是一个向量,其长度为:
,θ是向量
,
之间的夹角,方向是3个,
构成的右手系。结果向量
的方向垂直于向量
,
所决定的平面,
的指向按右手规则从
转向
来确定。
2. 向量空间
向量空间是一个非空集合,在这个集合上对于向量的加法和标量乘法两种运算封闭。所谓封闭是指任何运算结果仍然在这个集合中。
如果一个向量集中的每个向量都不能表示成其他向量的线性组合,则该向量集是线性独立的。用数学表示就是:
对于一个向量集,如果如下的线性组合:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-32-15.jpg?sign=1738930290-Pamf6dWQINxQ03OlFourBMHwUwB4ZhLi-0-eedc4057cfef95b6869952c9f2b7137d)
只有在c1=c2=…=cn=0时才能成立,就说这n个向量是线性独立的。