分析中的一些知识
映射,对,存在,
当为线性函数时,其中。可拆解为:
一阶梯度为jaccob矩阵
特别的,当时,一阶梯度为:
在pytorch的autograd.grad函数或backward方法中,grad_outputs/grad_tensors 是一个与outputs的形状一致的向量,即:
在给定grad_outputs 之后,真正返回的梯度为:
输出的梯度与inputs形状一致的向量,相当于是将中每个维度的梯度进行加权求和。
参考pytorch官网的关于求导教程,我将其重新总结一下,意思是在得到后用于计算损失:,所以对的梯度就根据<u>链式法则</u>可以写为:(这里雅可比算子记为,对的导数记为)
或者根据<u>维度对齐</u>,反向推出:
以上可以作为一般的复合多元函数的求导公式。
pytorch中求导函数还有两个参数:
- retain_graph如果为True,则每次backward后,梯度会累加,如线性层中参数b.grad开始时为0,第一次backward后b.grad=1,再一次backward候b.grad变为2。
分两种情况考虑:一个节点衍生出多个节点:比如这种z生成了x和y。还有就是多个节点衍生出一个节点比如:要计算(这里均为标量)的导数,有两个变量,,,计算图如下:
grad与backward的最大区别就是前者需要指定输入输出,并将计算的梯度结果以return形式返回;而后者不用指定输入输出,计算的梯度结果直接存入叶子节点的grad属性中。
- create_graph如果要计算高阶导数,则必须选为True。
另外,更高维度的pytorch求导,可以参考:https://blog.csdn.net/waitingwinter/article/details/105774720
因为本人暂时用不到多元符合函数高阶求导,就没有去验证是否正确。