收藏强迫症
这个就是资料~
1. 教学算法github
https://github.com/nryoung/algorithms
2. 中文awesome-python
https://github.com/jobbole/awesome-python-cn
3. 中文awesome-machine-learning
https://github.com/jobbole/awesome-machine-learning-cn
4. 基于tensorflow的词向量模型
https://github.com/GradySimon/tensorflow-glove
5. 中文的tensorFow教程
http://my.oschina.net/yilian/blog/664632?fromerr=PHHDnjdO
6. word2vec的python接口
https://github.com/danielfrg/word2vec
http://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb
PRML随手记
以后会好好整理滴~~~
- 正确分类与训练集不同的新样本的能力叫做泛化(generalization)
- 原始输入向量通常被预处理(pre-processed),变换到新的变量空间
- 这个预处理阶段有时被叫做特征抽取(feature extraction)
- 训练数据的样本包含输⼊向量以及对应的目标向量的应用叫做有监督学习(supervised learning)问题
- 训练数据由一组输入向量x组成,没有任何对应的目标值。无监督学习(unsupervised learning)
- 无监督学习中,发现数据中相似样本的分组,这被称为聚类(clustering)
- 发现数据中输入空间中数据的分布,这被称为密度估计(density estimation)
- 反馈学习(reinforcement learning)技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最大值
-
符合高斯分布的随机噪声
-
注意,虽然多项式函数y(x,w)是x的一个非线性函数,它是系数w的一个线性函数。
函数的这种关于未知参数满足线性关系的函数有着重要的性质,被叫做线性模型
最小化误差函数(error function)的方法实现实现参数训练
根均根(RMS)误差:除以N让我们能够以相同的基础对比不同大小的数据集,平方根确保了ERMS 与目标变量t使用相同的规模和单位进行度量 - 经常用来控制过拟合现象的一种技术是正则化(regularization)。这种技术涉及到给误差函数增加一个惩罚项,使得系数不会达到很大的值。这种惩罚项最简单的形式采用所有系数的平方和的形式。
- 通常系数w0 从正则化项中省略,因为包含w0 会使得结果依赖于目标变量原点的选择
- 在统计学中被叫做收缩(shrinkage)方法
- 二次正则项的一个特殊情况被称为山脊回归(ridge regression)
- 神经网络的情形中,这种方法被叫做权值衰减(weight decay)
-
随着�的λ增大,系数的大小逐渐变小。
- 概率论的两个基本规则:加和规则(sum rule)、乘积规则(product rule)
- X取值xi 且Y 取值yj 的概率被记作p(X = xi; Y = yj),被称为X = xi 和Y = yj 的联合概率(joint probability)
- 注意,p(X = xi)有时被称为边缘概率(marginal probability),因为它通过把其他变量(本例中的Y )边缘化或者加和得到
-
如果我们只考虑那些X = xi的实例,那么这些实例中Y = yj 的实例所占的比例被写p(Y = yj j X = xi),被称为给定X = xi 的Y = yj 的条件概率conditional probability)
- 可以把贝叶斯定理的分母看做归一化常数,用来确保贝叶斯公式左侧的条件概率对于所有的Y 的取值之和为1
- 对于离散的数值来说,是概率
-
对于连续的数值来说,是概率密度(probability density)
-
到概率的一个重要的操作是寻找函数的加权平均值。在概率分布p(x)下,函数f(x)的平均值被称为f(x)的期望(expectation),记作E [f]。
-
它度量了f(x)在均值E [f(x)]附近变化性的大小。
- 它表示在多大程度上x和y会共同变化。如果x和y相互独立,那么它们的协方差为0