Andrew会花很多时间来教授案例,这样的好处是往往能够避免我们去走别人已经走过的弯路,以便于我们开发机器学习系统的时候不会变成花6个月去研究机器学习系统却出了大毛病的人的一员
监督学习
现在实例监督学习,后面解释
监督学习意思是给出一个算法,需要部分数据集已经有正确答案。
回归问题
意思是要预测一个连续值的输出,比如房价。
实际上是离散值,所以往往看作标量
分类问题
对应的问题是:给定肿瘤的大小,你能否给出肿瘤为良性还是恶性的概率的对应大小
在别的学习算法中,可能用到更多特征,在最有意思的学习算法中,能够用无穷多的特征
当使用支持向量机的算法时,就知道存在简洁的数学方法能够让计算机处理无穷多的特征。
不是写下五六个特征,而是写下一个无穷长的特征表
总结
监督学习当中,我们有数据集并且已经知道我们的正确输出应该是什么样的(训练集),并且试图找出输入和输出之间的关系。
监督学习分为回归和分类问题
回归问题试图预测连续值输出,我们试图将输入变量映射到一些连续函数上。
分类问题试图预测离散输出,我们试图将输入变量映射到一些离散类别上。
例1:给定房产大小,预测房价。价格是大小的连续函数,这是回归问题。
我们也可以把它变成分类问题,给定某个阈值价格,高于它卖出,低于它不卖,这样就将问题转化为“以高于或者低于给定价格卖出?”的二分类问题
例2:
(a)回归问题:给定某人照片,基于这张照片预测年龄
(b)分类问题:知道某个患肿瘤的病人信息,预测肿瘤是恶性(malignant)还是良性(benign)
无监督学习
监督学习每个样本都标注为正样本负样本,但是无监督不知道这些数据是什么意思,问题是:我给你一堆数据,你能找到这些数据的某种结构吗?
聚类算法的应用:google news会将相似新闻组成新闻专题
基因芯片的概念,将相似的基因段分类
四大无监督学习应用:
- 组织计算机集群,找到总是在一起协同工作的计算机组以便精简机房
- 社交网络分析
- 营销场景
- 天文数据分析
鸡尾酒聚会问题
在不同距离有不同的麦克风,两个发言者同时对这些麦克风说话
算法实现了两个人的不同语音的分离增强
算法还实现了单独人说话时,和他的背景音乐的分离增强
Andrew Ng:在Java或者C++中实现这个算法要好多行
,现在Python由于库函数的原因变得很容易,但是他说的这两大语言还是要注意