240 发简信
IP属地:上海
  • sklearn重的“特征选择”方法

    背景 为什么用进行特征选择,个人理解主要包括以下几个方面: 1、减少特征数量可以防止维度灾难,降低算力的负担,减少训练时间; 2、增强模型泛化能...

  • Resize,w 360,h 240
    浅谈机器学习流程

    每当听到当年赵本山和宋丹丹在2000年春晚演出的小品《钟点工》总能一笑解千愁。工欲善其事必先利其器!一些看似复杂的事情,只要选对了方法或工具往往...

  • Resize,w 360,h 240
    关于Pima数据集研究(5)--重刷DC(数据清洗)篇

    一、前情提要 该数据集最初来自美国国立糖尿病与消化与肾脏疾病研究所。数据集的目的是基于数据集中包含的某些诊断指标,诊断性的预测患者是否患有糖尿病...

  • Resize,w 360,h 240
    让Pandas更快的框架--Modin

    无意间发现一个很牛的小工具,在此记录下来分享给大家,那就是号称比原始的pandas快不止4倍的“Modin”。 git地址:https://gi...

  • Resize,w 360,h 240
    机器学习样本不均衡处理办法

    今天我们聊一聊关于机器学习中数据不均衡的解决办法。 一、类别样本不均衡到底是啥? 类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数...

  • Resize,w 360,h 240
    关于Pima数据集研究(4)--Model(模型初探)篇

    重点说明,该章节为承上启下章节 一、前情提要 该数据集最初来自美国国立糖尿病与消化与肾脏疾病研究所。数据集的目的是基于数据集中包含的某些诊断指标...

  • Resize,w 360,h 240
    关于Pima数据集研究(3)--FE(特征工程)篇

    关于Pima数据集研究共分为4个篇幅来进行研究: 《关于Pima数据集研究(1)--EDA(探索性数据分析)篇》 《关于Pima数据集研究(2)...

  • Resize,w 360,h 240
    关于Pima数据集研究(2)--DC(数据清洗)篇

    关于Pima数据集研究共分为4个篇幅来进行研究: 《关于Pima数据集研究(1)--EDA(探索性数据分析)篇》 《关于Pima数据集研究(2)...

  • Resize,w 360,h 240
    关于Pima数据集研究(1)--数据探索分析 EDA篇

    关于Pima数据集研究共分为: 《关于Pima数据集研究(上)--EDA篇》 《关于Pima数据集研究(中)--DC&FE篇》 《关于Pima数...