2018-08-24

学习安排(8月21日-8月23日)
1.主要学习视频Week7
链接(http://www.xuetangx.com/courses/MITx/6_00_2x/2014_T2/about Week7)
2.辅助内容:教材第22章、24章

机器学习简介

当计算机科学家说起机器学习时,他们通常指的是进行一种训练,通过这种训练可以编写能自动学会根据数据隐含模式进行合理推断的程序。举例来说,通过线性回归可以学习一条曲线,作为一组实例的模型,然后使用这个模型对未知实例进行预测。基本范式如下:
(1) 观察一组实例,通常称为训练数据,它们可以表示某种统计现象的不完整信息;
(2) 对观测到的实例进行扩展,并使用推断技术对扩展过程建模;
(3) 使用这个模型对未知实例进行预测。

机器学习的方法数不胜数,但所有方法都试图建立一个模型来对现有实例进行归纳。所有方法都具有以下3个部分:

  • 模型的表示;
  • 用于评估模型优度的目标函数;
  • 一种优化方法,可以通过学习找出一个模型,使目标函数值最小化或最大化。

一般来说,机器学习算法可以分为监督式学习方法和无监督式学习方法。
在监督式学习中,我们先从一组成对的特征向量和值开始。目标是从这些特征向量和值中推导出某种规则,以预测与未知的特征向量所对应的值。回归模型为每个特征向量关联一个实数。分类模型为每个特征向量关联一组数量有限的标签。

在非监督式学习中,我们被给定一个没有标注的特征向量集合。非监督式学习的目标就是发
现特征向量集合中的隐含模式。举例来说,给定总统特征向量的集合,非监督式学习算法会将总
统分为高个和矮个,也可能分为美国人和法国人。一般来说,非监督式机器学习方法可以分为两
种,一种是聚类方法,另一种是隐变量模型学习方法

特征向量

特征工程的目的就是将现有数据中可以作为信号的特征与那些仅是噪声的特征区分开来。特征工程的失败会导致糟糕的模型。当数据的维度(即特征的数量)相对于样本量来说比较大时,特征工程就具有较高的失败风险。

成功的特征工程是一个抽象过程,它可以将大量的可用信息缩减为可以用于归纳的信息。举例来说,如果你的目标是学习一个模型,用来预测某个人是否容易患心脏病,那么有些特征就可
能是与之高度相关的,比如年龄。而其他特征就可能没那么重要,比如这个人是否是左利手。

距离度量

比较数值向量的相似度有很多种方法,最常用的比较等长向量的方法是基于闵可夫斯基距离进行操作:
distance(V,W,p) = ({\sum_{i-1}^{len} {abs(V_i-W_i)}^{p}})^{1/p}
这里的len是向量长度。
参数p至少为1,它定义了度量向量V和W之间距离时要经过的路径类型。④向量的长度为2时,p的作用是最容易表示的,因为可以使用笛卡儿坐标系表示。

如图,左下角圆形离十字更近,还是离星形更近?这要看情况。如果我们可以沿着直线行进,那么十字更近。根据勾股定理,十字与圆形之间的距离是8的平方根,大约等于2.8,而我们可以非常容易地看出星形和圆形之间的距离是3。这种距离度量方式称为欧氏距离,对应于p=2的闵可夫斯基距离。但是,如果将图中的线段想象成街道,并且必须经过街道才能从一个地方到达另一个地方,那么星形和圆形之间的距离仍旧是3,但十字与圆形之间的距离则变成了4。这种距离度量方式称为曼哈顿距离①,对应于p=1的闵可夫斯基距离。


距离度量的可视化

下面给出一个实现闵可夫斯基距离的函数。

def minkowskiDist(v1, v2, p):
    """假设v1和v2是两个等长的数值型数组
    返回v1和v2之间阶为p的闵可夫斯基距离"""
    dist = 0.0
    for i in range(len(v1)):
        dist += abs(v1[i] - v2[i])**p
    return dist**(1/p)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容

  • 法律案件: 2018年三十个典型虚假违法互联网广告 1、北京言美文化传播有限公司发布含有迷信内容的违法广告案 当事...
    朱广力阅读 505评论 0 0
  • 【平兄估值模型系列 4】汇总完结 前面平兄已经对三种估值模型进行了讲解,这篇文章中,平兄会对其他的估值模型也全部带...
    平兄_3cd7阅读 228评论 0 0
  • 两盏气死风灯在大门上摇摇晃晃,映得门匾上的‘西府’两个字明明暗暗。 也正是这两个字让那个原主顾惜...
    兮娮阅读 333评论 0 0
  • 最近老大去了上海,大概是有一堆事儿要处理,他的一部分工作暂时由我来做。其实相对于他其他的工作而言,我接手的这一部分...
    爱吃肉的璐阅读 1,070评论 0 1