1、最优化理论的基础

以下的内容是关于多元函数知识，也是最优化理论的基础，仅仅是需要《数学分析》的知识。

1、梯度与黑塞矩阵

定义1：设 $~n~$ 元函数 $~f(x)~$ 对自变量 $~x=(x_1,x_2,\dots,x_n)^T~$ 各自分量 $~x_i~$ 的一阶偏导数为
$\frac{\partial f(x)}{\partial x_i},~~~i=1,2,\dots,n$
那么称向量
$\nabla f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},\dots,\frac{\partial f(x)}{\partial x_n})^T$
为函数 $~f(x)~$ 在 $~x~$ 处的一阶导数或梯度

定义2：设 $~n~$ 元函数 $~f(x)~$ 对自变量 $~x=(x_1,x_2,\dots,x_n)^T~$ 各自分量 $~x_i~$ 的二阶偏导数为
$\frac{\partial^2 f(x)}{\partial x_i x_j},~~~i,j=1,2,\dots,n$
那么称矩阵
$\nabla^2 f(x)=\begin{pmatrix} \frac{\partial^2 f(x)}{\partial x_1^2 }&\frac{\partial^2 f(x)}{\partial x_1 x_2}&\dots&\frac{\partial^2 f(x)}{\partial x_i x_n}\\ \frac{\partial^2 f(x)}{\partial x_2 x_1}&\frac{\partial^2 f(x)}{\partial x_2^2 }&\dots&\frac{\partial^2 f(x)}{\partial x_2 x_n}\\ \vdots&\vdots&&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n x_1 }&\frac{\partial^2 f(x)}{\partial x_n x_2 }&\cdots&\frac{\partial^2 f(x)}{\partial x_n ^2 } \end{pmatrix}$
为函数 $~f(x)~$ 在 $~x~$ 处的二阶导数矩阵或 $~Hessen~$ 矩阵

定义3：如果 $~f(x)~$ 梯度的所有分量函数在 $~x~$ 都连续，则称 $~f(x)~$ 在 $~x~$ 连续可微；如果 $~f(x)~$ 的 $~Hessen~$ 矩阵的各个分量函数都连续，则 $~f(x)~$ 在 $~x~$ 二阶连续可微。

定义4：如果 $~f~$ 在开集 $~D~$ 上每一点都连续可微，则称 $~f~$ 在 $~D~$ 上一阶连续可微；如果如果 $~f~$ 在开集 $~D~$ 上每一点上二阶连续可微，则称 $~f~$ 在 $~D~$ 上二阶连续可微

注：(1)、定义4中之所以选择开集 $~D~$ ，而不是闭集，是因为闭集的边界不可微
(2)、如果 $~f(x)~$ 在 $~x~$ 二阶连续可微，则
$\frac{\partial^2 f(x)}{\partial x_i x_j }=\frac{\partial^2 f(x)}{\partial x_j x_x }$
即表明 $~\nabla^2 f(x)~$ 是一个对称矩阵

例1：设 $A\in\mathbb{R}^{nxn}$ , $~b\in\mathbb{R}^n~$ ,求二次函数
$f(x)=\frac{1}{2}x^TAx+b^Tx$
在 $~x~$ 的梯度和 $~Hesse~$ 矩阵
解：由于 $\begin{aligned} f(x)&=\frac{1}{2}\sum_{i=1}^{i=n}\sum_{j=1}^{j=n}a_{ij}x_ix_j+\sum_{i=1}^{i=n}b_ix_i\\ \end{aligned}$
则 $~k=1,2,\cdots,n~$ 时
$\begin{aligned} \frac{\partial f(x)}{\partial x_k}&=\frac{1}{2}\sum_{j=1,j\neq k}^{j=n}a_{kj}x_j+\frac{1}{2}\sum_{i=1,i\neq k}^{i=n}a_{ik}x_i+a_{kk}x_k+b_k\\ &=\frac{1}{2}\sum_{j=1}^{j=n}a_{kj}x_j+\frac{1}{2}\sum_{i=1}^{i=n}a_{ik}x_i+b_k \end{aligned}$
故 $~\frac{\partial f(x)}{\partial x}=\frac{1}{2}(A+A^T)x+b~$
和上面的分析类似，我们可以证明 $~\nabla^2f(x)=\frac{1}{2}(A+A^T)~$

2、方向导数

定义5：设 $~f:\mathbb{R}^n\rightarrow\mathbb{R}~$ 在开集 $~D~$ 上连续可微，对于 $~x\in\mathbb{R}^n,d\in\mathbb{R}^n~$ ,则 $~f~$ 在点 $~x~$ 关于方向 $~d~$ 的方向导数定义为
$\frac{\partial f}{\partial d}(x)=\lim_{\theta\rightarrow0}\frac{f(x+\theta d)-f(x)}{\theta}$
上述定义的方向导数等于 $~\nabla f(x)^Td~$ ,其中 $~\nabla f(x)~$ 表示 $~f~$ 在 $~x~$ 处的梯度， $~d~$ 为方向.

注：(1)、显然方向导数是偏导数的推广，偏导数刻画的函数沿着特定方向的微商,而方向导数是任意方向的微商
(2)、就是关于这里方向导数的定义，采用的我后面参考的几本书上其中的定义，不过我当时一看觉得有问题，我当时认为方向导数应该这样定义
$\frac{\partial f}{\partial d}(x)=\lim_{\theta\rightarrow0}\frac{f(x+\theta d)-f(x)}{\theta \Vert d\Vert}$
上面的范数我们就取欧式范数，或者原始的定义方向选取的是单位方向。后来在维基百科发现方向导数的定义，它认为两者都可以，仔细一想，才是我狭隘了。如果有人留意此贴，希望大家思考一下。

3、多元函数的泰勒公式

定义6：若 $~f(x)~$ 在 $~D~$ 上一阶连续可微，对任何 $~x,x+d\in D~$ 则有
$f(x+d)=f(x)+\nabla f(x)^Td+o(\Vert d\Vert)~~~~~~~麦克劳林余项$
$f(x+d)=f(x)+\nabla f(x+td)^Td,~~t\in(0,1)~~~柯西余项$
$f(x+d)=f(x)+\int_{0}^{1}\nabla f(x+td)^Tddt~~~~积分余项$
定义7：若 $~f(x)~$ 在 $~D~$ 上二阶连续可微，对任何 $~x,x+d\in D~$ 则有
$f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)~~~~~~~麦克劳林余项$
$f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x+td)d~~t\in(0,1)~~~柯西余项$
$f(x+d)=f(x)+\nabla f(x)^Td+\int_{0}^{1}(1-t)[d^T\nabla^2 f(x+td)d]dt~~~~积分余项$
证明：因为这个不是很显然
我们利用一元函数的泰勒展开证明，令 $~\phi(t)=f(x+td)~$
则 $~\phi'(t)=\nabla f(x+td)^Td~$ , $~\phi''(t)=d^T\nabla ^2f(x+td)d~$ ，由 $~\phi(1)-\phi(0)=\int_{0}^{1}\phi'(t)dt~$ 知
$\begin{aligned} f(x+d)-f(x)&=\int_{0}^{1}[\nabla f(x+td)^Td]dt=-\int_{0}^{1}[\nabla f(x+td)^Td]d(1-t)\\ &=(t-1)\nabla f(x+td)^Td|_0^1+\int_0^1(1-t)d[\nabla f(x+td)^Td]\\ &=\nabla f(x)^Td+\int_0^1(1-t)[d^T\nabla f(x+td)^Td]dt \end{aligned}$

4、两个普通公式的证明

此处是我临时起意加上的，肯定很多书上也找不到，主要的是
定义8：若 $~f(x)~$ 在 $~开集D~\in\mathbb{R}^n$ 上二阶连续可微，对任何 $~x,x+td\in D~$ 则有
$\frac{d f(x+td)}{d t}=\nabla f(x+td)^Td$
$\frac{d^2 f(x+td)}{d t^2}=d^T\nabla^2 f(x+td)d$
这个公式我们在上面的证明中用到，但是看起来却不是那么显然，我来证明一下：
证明： $\begin{aligned} \frac{d f(x+td)}{d t}&=\frac{df(x_1+td_1,x_2+td_2,\cdots,x_n+td_n)}{dt}\\ &=\frac{\partial f(x+td)}{\partial (x_1+td_1)}d_1+\frac{\partial f(x+td)}{\partial (x_2+td_2)}d_2+\cdots+\frac{\partial f(x+td)}{\partial (x_n+td_n)}d_n\\ &=(\frac{\partial f(x+td)}{\partial (x_1+td_1)},\frac{\partial f(x+td)}{\partial (x_2+td_2)},\cdots,\frac{\partial f(x+td)}{\partial (x_n+td_n)})\begin{pmatrix} d_1\\d_2\\\vdots\\d_n \end{pmatrix}\\ &=(\frac{\partial f(x+td)}{\partial x_1},\frac{\partial f(x+td)}{\partial x_2},\cdots,\frac{\partial f(x+td)}{\partial x_n})\begin{pmatrix} d_1\\d_2\\\vdots\\d_n \end{pmatrix}\\ &=\nabla f(x+td)^Td \end{aligned}$
$\begin{aligned} \frac{d^2 f(x+td)}{d t^2}&=\frac{d^2f(x_1+td_1,x_2+td_2,\cdots,x_n+td_n)}{dt^2}\\ &=\frac{\partial^2 f(x+td)}{\partial^2(x_1+td_1)}d_1^2+\frac{\partial^2 f(x+td)}{\partial (x_1+td_1)\partial (x_2+td_2)}d_1d_2+\cdots+\frac{\partial^2 f(x+td)}{\partial (x_1+td_1)\partial (x_n+td_n)}d_1d_n\\ &+\frac{\partial^2 f(x+td)}{\partial(x_2+td_2)\partial(x_1+td_1)}d_2d_1+\frac{\partial^2f(x+td)}{\partial^2(x_2+td_2)}d_2^2+\cdots+\frac{\partial^2 f(x+td)}{\partial(x_2+td_2)\partial(x_n+td_n)}d_2d_n\\ &~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\vdots\\ &+\frac{\partial^2 f(x+td)}{\partial(x_n+td_n)\partial(x_1+td_1)}d_nd_1+\frac{\partial^2 f(x+td)}{\partial(x_n+td_n)\partial(x_2+td_2)}d_nd_2+\cdots+\frac{\partial^2 f(x+td)}{\partial^2(x_n+td_n)}d_2d_n\\ &=\begin{pmatrix} d_1&d_2&\cdots&d_n \end{pmatrix}\begin{pmatrix} \frac{\partial^2 f(x+td)}{\partial^2x_1}&\frac{\partial^2 f(x+td)}{\partial x_1\partial x_2}\cdots&\frac{\partial^2 f(x+td)}{\partial x_1\partial x_n}\\ \frac{\partial^2 f(x+td)}{\partial x_2\partial x_1}&\frac{\partial^2 f(x+td)}{\partial^2x_2}\cdots&\frac{\partial^2 f(x+td)}{\partial x_2\partial x_n}\\ \vdots&\vdots&\vdots&\\ \frac{\partial^2 f(x+td)}{\partial x_n\partial x_1}&\frac{\partial^2 f(x+td)}{\partial x_n\partial x_2}\cdots&\frac{\partial^2 f(x+td)}{\partial^2x_n} \end{pmatrix}\begin{pmatrix} d_1\\d_2\\\vdots\\d_n \end{pmatrix}\\ &=d^T\nabla^2f(x+td)d \end{aligned}$

此次内容参考书籍：
[1]、倪勤：最优化方法与程序设计
[2]、袁亚湘,孙文瑜：最优化理论与方法

最后编辑于：2022.08.10 19:50:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,386评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,142评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,704评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,702评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,716评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,573评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,314评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,230评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,680评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,873评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,991评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,706评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,329评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,910评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,038评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,158评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,941评论 2赞 355

1、最优化理论的基础

1、梯度与黑塞矩阵

2、方向导数

3、多元函数的泰勒公式

4、两个普通公式的证明

推荐阅读更多精彩内容