是绝对位置。learnable怎么理解呢?
Bert细节整理本文是对bert的细节进行整理,分成3个部分的问题: 目录 输入 与transformer相比输入有什么不同? bert的3种embedding分别有什么意义,如果实现的? ...
是绝对位置。learnable怎么理解呢?
Bert细节整理本文是对bert的细节进行整理,分成3个部分的问题: 目录 输入 与transformer相比输入有什么不同? bert的3种embedding分别有什么意义,如果实现的? ...
本篇是我的读书笔记《秘密》,大多也是摘录。 读完后,书中的部分观点与其他书大同小异,但是这本书操作性强。自我总结成以下几点: 明确自己的目标(好的期望) 增强美好期望画面感,...
这篇文章其实更多讲的是,有哪些方面会影响我们作出决策。作者总结了6大影响力武器: 互惠 承诺和一致 社会认同 喜好 权威 稀缺 1. 互惠 —— 给予,索取,再索取 原因 因...
本篇是一些摘录: 1. 生活态度 我们期望生活给予什么并不重要,重要的是生活对我们有什么期望。 我们真正需要的,是在生活态度上来个根本的转变。我们需要了解自身,而且需要说服那...
1. 为什么要做特征归一化/标准化? 数据预处理中,通常会用到特征归一化,为什么要做归一化呢?一般有两点: 消除特征间单位和尺度差异的影响特征间的单位(尺度)可能不同。比如身...
本文是对bert的细节进行整理,分成3个部分的问题: 目录 输入 与transformer相比输入有什么不同? bert的3种embedding分别有什么意义,如果实现的? ...
正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。最基本的正则化方法是在原目标(代价)函数 中添加惩罚项,对复杂度高的...
本文是对transformer的细节进行整理,主要有以下问题: Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘? 关于 self...
大纲 选取列 select 常数列 lit 条件分支 when otherwise 数学函数 时间函数 窗口函数 row_number 自定义函数 udf split & e...
目录 二分类 多分类 为什么sigmoid激活函数,使用交叉熵损失函数更好? 1. 二分类 激活函数sigmoid这里要注意的是是最后一层的输出,才是激活函数后的输出,为预测...
这里说的指标用于离线评估模型的。一般验证时都是拿前T天的数据进行模型训练,拿第T+1到T+m天的数据进行离线指标验证。本篇文章主要介绍以下一些指标: AUC GAUC log...
在我们的业务场景中,优化指标是总的商机数(联系经纪人算是商机),通过对业务指标进行拆解,将目标拆分成: 提升用户搜索次数 提升搜索pctr(pctr表示点击次数/请求数) 提...
wide&deep和deepFM在推荐搜索中比较常见,这里对原理不做过多介绍,主要想说下特征处理。 1. wide&deep 模型结构 wide&deep结合了LR和DNN,...
在lightgbm中对categorical feature有专门的处理,但是需要标明哪些特征是categorical类型;另外在执行config文件也有相应的参数categ...
BERT框架 BERT有两部分:pre-training和fine-tuning。在pre-training阶段,会在没有标注数据且不同预训练任务上训练模型;在fine-tu...
本文内容来自于python队列queue 之优先级队列[https://www.cnblogs.com/saolv/p/9502124.html] PriorityQueue...
1. 信息熵 参考信息熵是什么?- D.Han的回答-知乎[https://www.zhihu.com/question/22178202/answer/223017546]...
参考: The Performance Impact of Using dict() Instead of {} in CPython 2.7[https://doughel...
本篇总结了阿里小蜜从2017-2020年的演进过程,更偏向架构体系上的介绍,不对具体技术做详细介绍。具体技术部分会放在后面的文章中。 1. 2017:意图与匹配分层的技术架构...