MLAPP 第一章节摘选

Machine learning:what and why?

我们正在进入大数据时代。例如,大约有1万亿个网页1; 每秒1小时的视频上传到YouTube,每天上传的内容可以播放10年2; 数千人的基因组,每个基因组长度为3.8×10 9个碱基对,已经被各个实验室测序; 沃尔玛每小时处理超过1M笔交易,数据库包含超过2.5 PB(2.5×10 15)的信息(Cukier 2010); 等等。
大量的数据需要自动化的数据分析方法,机器学习恰好可以提供。 特别是,我们将机器学习定义为一组方法,可以自动检测数据中的模式(pattern),然后使用未覆盖的模式预测未来的数据(data),或者在不确定的情况下做出其他类型的决策(例如计划如何收集更多数据!)
这本书采用的观点是:解决这类问题的最好方法是使用概率论这个工具。概率论可以被应用于任何涉及不确定性的问题中。在机器学习中,不确定性以多种形式出现:根据过去的一些数据,对未来的最佳预测是什么? 什么是解释一些数据的最佳模型? 机器学习的概率方法与统计学领域密切相关,但其重点和术语略有不同。
我们将描述各种各样的概率模型,适用于各种数据和任务。 我们还将描述用于学习和使用这些模型的各种算法。 我们的目标不是关于特别技术的食谱(cook book),而是通过概率建模和推理的视角来呈现统一的视角。 虽然我们会关注计算效率,但是关于如何将这些方法扩展到真正海量数据集的细节在其他书籍中有更好的描述,例如(Rajaraman和Ullman 2011; Bekkerman et al。2011)。

Type of machine learning

机器学习通常被分为两种主要的类型。在监督学习方法中,目标是:在给定输入-输出对构成的标记数据集时,学习一个从x到y的映射
image.png

。D被称为训练集,N是训练数据的数量。

  • 当给定了奖励和惩罚信号时,强化学习能够学习做出什么样的行动(act)或者行为(behave)。(举例子来说,考虑一下小孩子是怎么学会走路的)
  • 有时候,当我们对一个预测没有足够的confidence,返回“我不知道”可能比返回一个我们不trust的label更合适。比如:当参加Jeopardy比赛时,如果答错将会扣分,IBM制作的系统就会首先计算confidence,有时会返回“我不知道”
  • 使用降维技术有时是有用的。当我们将低维度的数据作为输入,预测准确度经常会变高。因为,模型能够更加聚焦于物体的本质,过滤掉了非本质的特征。同时,低维度的数据能够使得加快速度。
  • 介绍一个电影推荐的模型,戳这里
  • 在本书中,我们将侧重于形式p(y | x)或p(x)的概率模型,取决于是监督学习还是非监督学习。 定义这些模型有很多方法,但最重要的区别是:模型的参数数量是否固定,或者参数数量是否随着训练数据的数量增加? 前者称为参数模型,后者称为非参数模型。 参数模型的优势在于使用速度更快,但缺点是对数据分布的性质做出更强的假设。 非参数模型更灵活,但对于大型数据集通常在计算上难以处理。 我们将在下面的部分给出两种模型的例子。 尽管我们的许多讨论也适用于无监督学习,但我们注重监督学习的简单性。(K近邻法属于非参数模型,即形式为p(x)的概率模型)
  • K近邻分类器很简单,并且可以比较好地起效果,前提是给定了一个良好的距离度量方法和足够的标注数据。然而,KNN的主要问题是,当输入数据的维度过高,分类器就不会work地那么好。
  • 当我们适应高度灵活(flexible)的模型时,我们需要小心过拟合,也就是说,我们应该避免尝试对输入中的每一个微小变化建模,因为更可能是噪声而不是真实信号。
  • 在训练模型时,我们无法访问测试集(假设),所以我们不能使用测试集来选择正确复杂度的模型。 但是,我们可以通过将训练集分为两部分:一部分用于训练模型,另一部分用于选择模型复杂度,称为验证集。 然后,我们让所有模型拟合训练集,并在验证集上评估它们的性能,并选择最好的。 一旦我们选择了最好的模型,我们就可以用整个数据集来重新训练模型。 如果我们有单独的测试集,我们可以评估其性能,以估计我们方法的准确性。
  • No free lunch theorem. 机器学习的大部分内容都涉及到找出不同的模型和不同算法去拟合数据。 我们可以使用交叉验证等方法来凭经验选择适合我们特定问题的最佳方法。 然而,没有普遍的最佳模式 - 这有时被称为没有免费的午餐。 原因在于,在一个领域中运作良好的一组假设可能在另一个领域中效果不佳。根据没有免费午餐定理,我们需要开发许多不同类型的模型,以涵盖现实世界中各种各样的数据 。 对于每个模型,我们可以使用许多不同的算法来训练模型,这些算法会进行不同程度的速度 - 精度 - 复杂度折衷(tradeoffs)。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容