机器学习基础——线性代数

Published at Jun 24, 2020

Last updated Jan 11, 2021

927 words

view

Machine learning

1. 前言
2. Concepts
3. Operations

前言

本文的主体是机器学习中所用到的线性代数知识，因此奉行Lazy evaluation，对这些知识更深层次的探究只在绝对必要时完成。

Concepts

Tensor

矩阵是向量的延申，而Tensor(张量)则是矩阵的延申。
向量可用一维数组表示，矩阵可用二维数组表示，而张量可用三维数组表示。
表示张量A的一个分量

$A_{i,j,k}$

Identify matrix

Identity matrix为单位矩阵的另一名称。一般用I表示，而单位矩阵用E表示。

matrix inversion

花书定义：

$A^{-1}A=I$

并未限定A为方阵，并且是左逆

花书也定义了右逆

$AA^{-1}=I$

同样未限定A为方阵

而后说明，方阵的左逆和右逆是相同的

For square matrices, the left inverse and right inverse are equal

而课本认为非方阵没有逆矩阵。对左逆和右逆也不做显式区分。

在花书接下来提到逆矩阵时，这可能是一个坑点

Singular matrix

非满秩的方阵称为奇异矩阵。

Norms

又称范式。范式是一个将向量映射为非负数量的函数，用以描述向量的“大小”。

正式定义：

f(x) = 0 ⇒ x = 0
f(x+y) ≤ f(x) + f(y)(三角不等式)
∀α∈R,f(αx) = |α|f(x)

常用的范式:

L2 norm
向量与原点的距离

$||x||_2=(\sum_{i} |x_i|^2)^{\frac{1}{2}}$

Squared L2 norm
L2 norm的平方形式，某些情况下易于分析和计算
L1 norm
$||x||_1=\sum_{i} |x_i|$
max norm
$||x||_{\infty }={\max} |x_i|$
Frobenius norm
计算矩阵的“大小”

$||A||_F=\sqrt{(\sum_{i,j} A_{i,j}^2)}$

Operations

Decomposition

将矩阵分解为某些更基础的成分可以更好的帮助我们分析其中的一般规律。

Eigendecomposition

基于特征值和特征向量分解。与课本相同，不再赘述。

Singular value decomposition(SVD)

又称奇异值分解。对矩阵的形状没有要求，且任意实矩阵都可以做奇异值分解，因而比特征值分解更具通用性。

对于一个m*n的矩阵A，奇异值分解希望将其分解为三个矩阵的乘积：

$A=UDV^T$

U是大小m*m的正交矩阵
D是大小m*n的对角矩阵
V是大小n*n的正交矩阵

D中对角线的元素称为A的奇异值。U的列向量称为A的左奇异向量，V的列向量称为A的右奇异向量

A的奇异值分解可以理解为「A的函数」的特征值分解：

A的左奇异值向量是AA^T的特征向量。
A的右奇异值向量是A^TA的特征向量
A的非零奇异值是A^TA的特征值，也是AA^T的特征值

SVD的一个应用：部分场景下将矩阵求逆推广到非方阵，如下

The Moore-Penrose Pseudoinverse

又称摩尔－彭若斯广义逆（好长的名字…）

$A^+=\lim_{\alpha \searrow 0}(A^TA+\alpha I)^{-1}A^{T}$

实际上，一般用

$A^+=VD^+U^T$

来计算广义逆

U，D，V是A的奇异值分解。D的广义逆D+由非零元素取倒数，然后转置得到。

当A是Ax=y的系数矩阵时，若x有解，则x=A+y是所有解中具有最小L2范式的那一个。

若x无解，Ax给出了L2范式中y-Ax的最小值

Trace

又称迹，是矩阵主对角线元素的和。

$\mathrm{Tr}(A)=\sum_i{A_{i,i}}$

迹和矩阵乘法可以代替一些需要求和符号的操作：

$||A||_F=\sqrt{\mathrm{Tr(AA^T)}}$

矩阵的迹具有循环不变性：

$\mathrm{Tr(ABC)=Tr(CAB)=Tr(BCA)}$

更通用来说，

$\mathrm{Tr}(\prod_{i=1}^nF^{(i)})=\mathrm{Tr}(F^{(n)}\prod_{i=1}^{n-1}F^{(i)})$

prev：机器学习基础——概率论与信息论 next： HTML渲染为UWP的原生控件