做one-hot编码有时候过于稀疏pd.factorize(): factorize是因式分解的意思,在这里是把常见的字符型变量分解为数字。 转换后包含两个array,分别是...
![240](https://cdn2.jianshu.io/assets/default_avatar/11-4d7c6ca89f439111aff57b23be1c73ba.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
做one-hot编码有时候过于稀疏pd.factorize(): factorize是因式分解的意思,在这里是把常见的字符型变量分解为数字。 转换后包含两个array,分别是...
分别对两个表中的特征做labelencoder可能出现不一致问题如train中['item_id', 'store_id', 'dept_id'],而price中[“item...
np.concatenate 可以对array操作pd.concat对series操作data.flatten() 降为一维数组
参考:https://mp.weixin.qq.com/s/7nyNhtfUtJGVdwNcMOVQsQ学习总结 figure是画布axes是坐标系(或者是区域)axis是坐...
plt.style.use('fivethirtyeight') # 流行的数据可视化主题
商业模式一:电子商务 (模式没有好坏之分) 1.用户获取模式(重复购买率不足40%) 此时经营中心应放在新用户的获取上销售水下呼吸器或者攀岩设备的商家是这种商业模式的典型。大...
转换成datetime 查看时间数据的年月日 将datetime转换成字符串 str()即可 但是会带有秒 比如 2016-02-15 转换成str 就变成 '2016-02...
取两位小数
检查内存
例: 画出每天的油价 先设置时间为索引
merge连接两个表 data.groupby(["state","city"]).size() 可查看分组后的结果 显示这个group还有求和、计数、均值等等 agg 对行...
x坐标数太密集 解决办法官方文档https://matplotlib.org/3.1.1/gallery/ticks_and_spines/tick-locators.html
混淆矩阵 positive,negative 是指预测的结果是正例还是反例true,false是指预测的正确与否 TP:正样本预测正确TN:负样本预测正确FP:正样本预测错误...
二值化 sklearn.preprocessing.Binarizer大于阈值映射为1,小于等于阈值映射为0 分箱 preprocessing.KBinsDiscretize...
map映射