问题
传统线性模型问题:
1 稀疏性:onehot带来数据稀疏性(尤其是id特征),使得特征空间变大;
2 线性组合的权重,训练不充分,也会带来稀疏性;观察样本中未出现交互的特征分列,不能对相应的参数进行估计;
解决方案:
引入隐向量,相当于对特征embedding,使用隐向量内积作为交叉特征向量;交叉特征参数W=VV,所以也被称为矩阵分解。
模型
模型
复杂度
可由O(kn**2)将至O(kn),平均复杂度更低
image.png
策略
一般回归和二分类(多分类权重系数过多)
回归
lse最小平方误差
二分类
hinge损失或者ligit loss
算法
参数分三部分,梯度如下
正则
image.png
超参
image.png
问题
1改进点有哪些:
a.控制k的取值,k高,表达能力强,k小,利用低秩近似的优势,提高泛化性;
b.特征交叉,引入embedding思想,对每一个特征embedding;
c. 复杂度线性。
参考:
https://www.cnblogs.com/pinard/p/6370127.html
http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/