新的Loss Function还是一样的,L(θ),也就是说损失是与全部这些未知参数有关系的。然后Loss function的计算,以及如何通过Loss function来优化参数,实际上和线性模型是一样的。
其中▽是求L的梯度,也就是所有参数的偏导组成的向量辣,高数学过的,这样表示简洁一点。
实际训练过程中:
一般并不使用全部training data进行一次参数更新,而是将全部数据分成多个batch,每次使用一个batch进行一次参数更新(update)
全部batch更新一次,可以看作是训练过了1 epoch;所以1 update 和 1 epoch是不一样的。
sigmoid函数的替换:
可以替换成ReLU,但是和sigmoid比起来,想要拟合蓝线的函数,就需要两个才能拟合了,所以同样的拟合效果,ReLU需要比sigmoid多两倍的神经元。
sigmoid和ReLU统称为activation function,激活函数,神经网络里面的概念。至于哪个比较好,之后讲~
一层神经元的输出,可以把它看作新的特征输入,继续再来一层神经元,至于有多少层,这也是一个超参数需要自己来定的。
neuron-神经元,整体neural network-神经网络,其中每一列叫一个layer,层数很多就把它叫做deep learning深度学习啦。
这就是神经网络的概念了… 第一次听这种讲法。
提出问题:既然足够多的激活函数就可以一次性拟合任何函数的形状,为什么不用一层很多神经元的神经网络,而是层数越来越多了呢?后面会讲。
过拟合 over fitting问题:训练集效果变好,但测试集的效果变差了。
至于怎么样选择模型,下节课讲辣~第一节课结束。
model=设定好超参的一个function,未知的参数是看你模型训练的够不够好,但是模型本身是func决定的。