矩阵求导是多元微积分在矩阵空间中的应用,它涉及到标量、向量和矩阵之间的求导。以下是矩阵求导的一些基本规则和例子:
基本规则
- 标量函数对向量求导
- 如果有一个标量函数
y
对一个向量x
求导,结果是一个向量,其每个元素是y
对x
中每个元素的偏导数。
- 向量对标量求导
- 如果有一个向量
y
对一个标量x
求导,结果是一个向量,其每个元素是y
对x
中每个元素的偏导数。
- 矩阵对向量求导
- 如果有一个矩阵
Y
对一个向量X
求导,结果是一个矩阵,其每个元素是Y
对X
中每个元素的偏导数构成的矩阵。
- 标量对矩阵求导
- 如果有一个标量
y
对一个矩阵X
求导,结果是一个矩阵,其每个元素是y
对X
中每个元素的偏导数构成的矩阵。
例子
- 标量函数对列向量求导
- 如果
Y = f(X)
,其中Y
是m×n
矩阵,X
是n×1
列向量,那么dY/dX
是一个m×1
列向量,其每个元素是Y
对X
中每个元素的偏导数。
- 矩阵乘法求导
- 如果
Y = AX
,其中Y
是p×q
矩阵,X
是n×1
列向量,A
是p×n
矩阵,那么dY/dX
是一个p×1
列向量,其每个元素是A
对X
中每个元素的偏导数构成的p×1
列向量。
- 矩阵对矩阵求导
- 如果
F
是p×q
矩阵,X
是m×n
矩阵,那么dF/dX
是一个mp×nq
矩阵,其每个元素是F
对X
中每个元素的偏导数构成的p×q
矩阵。
符号约定
-
x
表示标量或向量,X
表示矩阵,Y
表示矩阵。 -
x
(加粗)表示向量,X
(加粗)表示矩阵。 -
vec(F)
表示矩阵F
的列向量化,vec(X)
表示矩阵X
的列向量化。
布局方式
-
分子布局 :导数矩阵中
y
的元素排列方式与y
相同,x
的元素的排列方式与x^T
相同。 -
分母布局 :导数矩阵中
y
的元素排列方式与y
相同,x
的元素的排列方式与x
相同。
链式法则
- 如果
y
是u
的函数,u
是x
的函数,那么dy/dx = (dy/du) * (du/dx)
。
重要结论
-
d(AX)/dX = A
。 -
d(A*X*B)/dX = B*A
。 -
d(A*X*B)/dX = B*A
。
以上是矩阵求导的基本规则和例子。