专注吃喝五十年

IP属地：北京

信息熵与交叉熵
信息熵一条信息的信息量和它的不确定性有关系，对于不知道不了解的事情，所需要的信息量更大。对于大概率发生的事情的信息量较小，而越小概率的事情发生...

1639 0 0
爬虫外汇牌价
需求：爬取每天00:00:05的个别币种中行外汇价格

428 0 0

带有验证码的登陆页面的数据的爬取 selenium+tesserocr

623 0 0
验证码的图像处理
突然发现可以用markdown插入代码的╮(╯▽╰)╭ 可以使用ImageEnhance方法对图像进行处理，首先改变图像的对比度，使用Image...

774 0 0
log和box-cox变换
1. 通常对于y进行log变换，因为诸如线性模型、SVM等要求target variable是服从正态分布的 2. 对于特征值服从偏态分布的，可...

3306 0 0
误差项服从正态分布时，最小二乘法等同于极大似然估计
关于“误差项服从正态分布时，最小二乘法等同于极大似然估计“这句话尝试推导了一下，如有错误请指正

2060 0 0
Ridge Regression、Lasso Regression和Elastic Net Regression
本文为初学者个人理解，既不规范也不全面，还有可能理解有误，慎入。 Ridge Regression（称岭回归或脊回归）、Lasso Regres...

0.1 3062 0 2

归一化
归一化其实就是把数据scale缩小到一定范围内，就像概率中相关系数是协方差的归一化结果。对定性型特征采用one-hot，对定量型特征采...

655 0 0
one-hot encoding
one-hot encoding与哑变量均用于将定性特征转为定量特征。注：无序列要求的定量，若有序，考虑用map。 one-hot en...

1783 0 0