240 发简信
IP属地:北京
  • 120
    十个基础算法

    监督学习对于有标签的特定数据集(训练集)是非常有效的,但是它需要对于其他的距离进行预测。 无监督学习对于在给定未标记的数据集(目标没有提前指定)上发现潜在关系是非常有用的。 ...

  • 120
    大数据

    HDFS 分布式文件系统 按块存储支持大规模文件存储简化系统设计数据备份 名称节点,整个HDFS集群的管家。FsImage和editlog通过shell命令,从上述两个地方最...

  • 120
    模型评价方法

    第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲线 分别画图举例,要说出应用场...

  • 120
    auc计算方法总结

    面试的时候回答的不清楚,学习&总结如下。参考link 1.ROC曲线 对于二值分类器,评价指标主要有precision,recall,F-score(综合考虑precisio...

  • cf

    协同过滤推荐系统可以分为基于用户的推荐和基于项目的推荐。 基本数据是用户对项目的评分表,预测稀疏矩阵中空缺项的值。越稀疏越难。 计算相似度:cosine余弦相似度correl...

  • @IT人故事会 嗯嗯,受教。以后注意写的详细一些。

    词向量模型

    词向量 重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个维度值为1.优点在于,如果采用...

  • 情感分析

    步骤: 数据与输出重排打散 bag-of-words词袋模型词袋模型 n-gram模型将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。n-g...

  • 词向量模型

    词向量 重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个维度值为1.优点在于,如果采用...

  • cross-validation

    一开始提出的是LOOCV方法:每次取出一个数据作为测试集的唯一元素,其他n-1个元素作为训练集哟用于训练模型和调参。经过n个模型,每次一个MSE(均方误差),将他们取均值得到...

  • 面试复盘

    百度 一面 TCP协议C++里继承的多态 概率题,6位数倒过来还是一样的概率 从袋子里拿红黑球 2xN的大方块,用1x2和2x1填满有多少种方法 找一个最长递增子序列 判断两...

  • 120
    xgboost原理

    阅读XGBoost 与 Boosted Tree 基学习器:CART 每个叶子节点上面有一个分数 不够厉害,所以找一个更强的模型 tree ensemble 对每个样本的预测...

  • tree

    二叉树的遍历 深度(纵向)优先在Python中一般使用列表,广度优先(横向)一般使用迭代# 617. Merge Two Binary Trees 235 Lowest Co...

  • 生成模型与判别模型

    生成模型与判别模型 判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型k近邻,感知级,决策树,支持向量机,逻辑斯蒂回归寻找差别 生成方法:...

  • XGBOOST

    背景 https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection这次比赛主要是通过日志来抓手机点击app的...

  • python machine learning学习笔记

    第二章 训练机器学习分类算法 感知机perceptron 自适应线性神经元adaptive linear neurons 对机器学习算法有直观了解 使用pandas, Num...

  • 120
    DeepLearning学习笔记#Logistic Regression with a Neural Network mindset(1)

    概述 本文主要内容:如何利用Python的来实现Logistic函数。包括:初始化、计算代价函数和梯度、使用梯度下降算法进行优化等并把他们整合成为一个函数。本文将通过训练来判...

  • 120
    DeepLearning学习笔记#Building your Deep Neural Network: Step by Step(3)

    概述 本文介绍如何利用Python的来实现具有多个隐藏层的图片分类问题。通过这次建立的多层神经网络模型,可以将之前的猫分类问题的准确率提升到80%。要点:1. 使用非线性映射...

  • 120
    DeepLearning学习笔记#Planar data classification with one hidden layer(2)

    概述 如何利用Python的来实现具有一个隐藏层的平面数据分类问题。前文,创建的神经网络只有一个输出层,没有隐藏层。本文将创建单隐藏层的神经网络模型。 二分类单隐藏层的神经网...

  • 120
    爬虫入门之路漫漫(2):scrapy实例

    爬取某招标网。 首先是几个基础scrapy命令: 新建一个项目 scrapy startproject 项目名称 爬 scrapy crawl 爬虫名称 代码: item.p...

  • 爬虫入门之路漫漫(1):scrapy

    items.py:定义需要获取的内容字段,类似于实体类。Item是用来装载抓取数据的容器,和Java里的实体类(Entity)比较像 pipelines.py:项目管道文件,...