5.5 瀑布下降法
我们在没有讲述瀑布下降法(即完全梯度下降法)之前就比较了这个方法和随机梯度下降法的优劣。很多人会觉得丈二金刚摸不着头脑。但是这其实是很必要的。因为其实本质上算法是很严谨细致的东西,其中精妙之处往往隐藏很深,所以就需要细细体会才能理解其中的思想。我们先讲其优劣和应用,再来看算法本身,就会站在上帝视角来看待算法的全貌。否则一旦落入算法代码的汪洋大海,就变成盲人摸象,只能看到算法的某一个角。弱水三千,只取一瓢。至少你要知道三千弱水的不同,然后才能选最喜欢的那一瓢。
下面我们进入瀑布下降法的代码环节。
数据处理部分就不再详述了,这一步和之前的随机梯度下降法是一样的。我们需要用到矩阵按列求平均值的函数,下面就是这个函数的代码:
def matrix_column_avg(mat):
row,column = mat.shape
result = np.zeros(column)
for col in range(column):
for item in range(row):
result[col] += mat[item,col]
result /= row
return result
它输入一个矩阵,输出一行的向量,向量中的每一个元素都是输入矩阵的列平均值。另外,我们将每一次的全部数据的梯度下降都打包成一个函数,让它对所有的数据点做一次梯度下降。输出是梯度下降的引擎,梯度下降乘子(它是一个对角矩阵)以及对应于每条数据的误差列表。代码如下:
def excute_grad_desc(data,real_value,weights):
weight_matrix = np.empty((len(raw_data),len(weights)))
error_list = []
for item_index in range(len(data)):
# 每个数据条都做一次梯度下降
# 从第一条数据条开始循环
inputs = data[item_index]
outputs = real_value[item_index]
engine = rand_grad(inputs,outputs,weights)
gdm = list(engine.grad_descent_multiplier())
if min(np.abs(gdm)) > max(np.abs(weights)):
gdm /= 10*min(np.abs(gdm))/max(np.abs(weights))
# 下降因子相对于权重过大,此时应将它缩小,否则极易引起误差发散。
factor = np.diag(gdm)
error_list.append(engine.error_function())
return engine, factor, error_list
最后是执行整体梯度下降,用单步梯度下降操作之后得到的值计算出平均权重,然后用平均权重当作新的起点进行下一步的梯度下降。这样就可以用一个循环来执行,即:
for t in range(100): # 梯度下降的下降次数
engine, factor, error_list = excute_grad_desc(raw_data,sell_price,weights)
weights -= np.matmul(learning_rate,factor)
weight_matrix[item_index] = weights
# 求平均值,并把它看作是新的权重
weights = matrix_column_avg(weight_matrix)
print("最终的权重:", weights)
# 验证权重的有效性, 再执行一次
engine, factor, error_list = excute_grad_desc(raw_data,sell_price,weights)
print("误差列表:", error_list)
最终我们会看到如下的结果:
最终的权重: [1.46239029 0.51211936 1.39663107 1.10692271]
误差列表: [8.17836538021409e-05, 0.0044868083148646085, 0.0037373692234452895, 0.007409998180022533, 0.0014975302720826947, 0.0076731972041592005]