线性代数、统计学中有很多概念作为机器学习中的基础,比如说矩阵运算、相关系数等。ML 中的一个难点就是由原来概率中的线性变换直接过渡到了矩阵和网络,这其中的过程却没有人铺垫。于是,本文持续更新和 ML 相关的线性代数、统计学知识和相关的实现。

变量(特征个数)和解的关系

多变量和最后target的关系是可以使用 matrices 进行表示的,这就是一种数学公式化。

Broadly speaking, in linear algebra data is represented in the form of linear equations. These linear equations are in turn represented in the form of matrices and vectors.

先直观的感受一下变量和图形(可视化)的关系。两个变量组成的equations 是两条线的相交情况。而三个变量在空间中有三种情况: 相交,平行,不在一个平面上。三个变量组成的equations 是三个面的相交情况。有四种情况 (try hard to figure it out): No intersection at all. Planes intersect in a line. They can intersect in a plane. All the three planes intersect at a point.

当到达4 dims 的时候,it’s impossible to visulize it.

这些词汇 (terms) 经常在文献中出现,需要对于其含义有个比较好的认识。 Order of matrix – If a matrix has 3 rows and 4 columns, order of the matrix is 34 i.e. rowcolumn. (翻译成 矩阵的阶) Square matrix – The matrix in which the number of rows is equal to the number of columns. Diagonal matrix – A matrix with all the non-diagonal elements equal to 0 is called a diagonal matrix. Upper triangular matrix – Square matrix with all the elements below diagonal equal to 0. Lower triangular matrix – Square matrix with all the elements above the diagonal equal to 0. Scalar matrix – Square matrix with all the diagonal elements equal to some constant k. Identity matrix – Square matrix with all the diagonal elements equal to 1 and all the non-diagonal elements equal to 0. Column matrix – The matrix which consists of only 1 column. Sometimes, it is used to represent a vector. Row matrix – A matrix consisting only of row. Trace – It is the sum of all the diagonal elements of a square matrix. Rank of a matrix – Rank of a matrix is equal to the maximum number of linearly independent row vectors in a matrix. Determinant of a matrix - 矩阵的行列式 转置 -在图形 matrix中还是很常见的。 $$\mathrm { A } _ { \mathrm { ij } } ^ { \mathrm{T}} = \mathrm { A } _ { \mathrm { ji } }$$

这个矩阵乘法和元素相称的区别,后者是element-wise 进行的。可以从另外一个角度去列及矩阵相称: This operation on a vector is called linear transformation. 就是后面的vector 映射到了前面的矩阵空间。

特征值和奇异值

着两个是分别对应着PCA 和SVD。 Eigenvalues and Eigenvectors 如公式所示,特征值和特征向量的乘积就是方阵和特征向量的乘积,原先的方阵是可以降维表示成特征向量和特征值的。$ A x = \lambda x $

特征值和特征向量的计算过程,如果矩阵计算比较简单,那么还是容易计算的。

对于奇异值分解,最常见的就是这种表达:$A = U \Sigma V ^ { T }$ 特征值分解和奇异值分解都是给一个矩阵(线性变换)找一组特殊的基,特征值分解找到了特征向量这组基,在这组基下该线性变换只有缩放效果。而奇异值分解则是找到另一组基,这组基下线性变换的旋转、缩放、投影三种功能独立地展示出来了。