《矩阵方法在数据挖掘及模式识别中的使用》读书笔记1

感想

这是一本奇书,第一章没有什么废话,全部都是干货。奇书有几种,比如“大一统理论”,把许多看似并不直接相关的部分,站在一个更高的抽象层次,用一个无比简洁的总结,全部统一起来,让人感到醍醐灌顶,“茅厕”顿开。比如之前看过的一本《微积分五讲》就是这种书,以后有时间专门对它写个读书笔记。<br />
而这本书,是另一种“奇”。作者从现实生活中的实例切入,并将之转化为一个数学的问题(矩阵方法),之所以称之为奇,实在是因为这样的书,太少见了(或者是我太孤陋寡闻了)。这种方式是无比亲切的,人认识世界的规律从具体上升到抽象,或者说的“机器学习”一点,人脑如果没有大量的实例来学习,不足以从中获取到模式。但是我们看到过太多的数学书,上来就是公式、定义、定理、引理、推论1、推论2,写的就跟一个字典一样。即使逻辑再严密,体系再完美,作为教科书而言,连厕纸都不如。<br />

章节结构


这本书主要有3个部分,第一部分是一些线性代数的基础知识,其中第一章是3个实际问题的概述,单刀直入,让我们一上来就能十分直观地感受到矩阵方法在现实问题中的使用,这些示例问题会在第二部分的时候展开讨论,而其中需要的线性代数基础知识则在第一部分剩下的章节中集中讨论。

第一部分:线性代数有什么用,为什么需要矩阵分解

★向量和矩阵如何用在数据挖掘和模式识别领域(概述)

名词解释

Data Mining:the science of extracting useful information from large data sets
Pattern Recognition:the act of taking in raw data and making an action based on the ‘category’ of the pattern”
应用领域:电子商务、搜索引擎、生物信息学、信息检索
学科交叉:computer science, statistics and data analysis, linear algebra, and optimization

实际应用的示例

  • 信息检索(information retrieval)
    作者举例:
    先选取10个关键词,然后选取5篇文章

    把每个关键词在每篇文章中出现的频率制成一张表

    把这个表抽象成一个矩阵

    假如要查询“ranking of Web pages”这个关键词,按照上面那个关键词表,其实就对应一个查询向量
    查询向量,包含ranking of Web pages关键字

    进而,整个查询的问题,就变成了 一个数学的问题:即从矩阵A中,找出一个向量x,使得该向量最接近与查询向量q。作者说,要解决这类问题,就需要一些距离度量(distance measure)的方法
    为什么需要矩阵分解
    在现实中,Key Words的数量十分巨大,达到10的6次方数量级,其结果就是,A矩阵中,会产生大量的0元素,这样的矩阵被称为稀疏矩阵(sparse),如果没有很好的简化问题的方法,那么求解的过程即使对于计算机而言也将是十分漫长和痛苦的,矩阵分解正是人们在深入研究了矩阵的性质之后,所发现的对矩阵进行简化的方法。如果了解了矩阵分解的现实背景,就知道它的存在是有意义的,节省了大量的无趣计算时间,比起某些补品,它更加实在地延长我们的生命。明年过年不送礼,送礼只送矩阵分解。
    其中一种矩阵分解方法被称为singular value decomposition (SVD),中文名叫奇异值分解,我也不知道为什么碰巧中文名那么奇异。。使用这种方法, 可以进行数据压缩(data compression)和检索增强(retrieval enhancement)
  • 文字识别
    作者举例
    16*16格内的手写数字

    小时候都写过田字格,把一个汉字写在一个田字格里面,同样的道理,可以用这样的格子把文字割开,划分区域。田字格可以看成是一个3x3的矩阵,当然也可以划分得更加精细一点,变成一个16x16的格子。
    3可以用一个16行16列的矩阵来表示,也就是说用256个数字构成的矩阵,来表示一个手写的3,这256个数字的大小,代表在那个点上的灰度大小。我们把原来的16行16列表示的3变成1列256行,此时3可以用一个向量来表示,假如说有1000个手写3的样本,那么A矩阵就是一个1000列,256行的矩阵,其中每一个列向量,对应一个手写样本3。其中的每一列,张(span)成一个子空间(subspace),然后利用线性代数的知识,计算这个子空间的近似基(approximate basis)
    这时候,有一份新的手写样本,如何让计算机识别出这个未知的数字,这个新的数字假设为向量b,要判断b是否是3,其核心就是判断b是不是在原先通过1000个样本所得出的“手写3”的“向量空间”里面。用接近数学的语言来说:是否可以通过之前统计数据得来的手写3的近似基来得到一个线性组合,使得b这个向量近似可以用这个线性组合来表示出,如果可以,那么可以认为这个新的手写数字就是3。(这里很绕口,本质上就是刚才加粗的话)
    判断两者差值是否足够小
  • 搜索引擎
    作者示例:
    谷歌的搜索引擎的核心就是矩阵运算
    网页与网页之间的关系图

    上图的关系抽象成矩阵

    如果两个元素之间有关联,那么就不为0,否则就为0。比如说4,比较高冷,只进不出,所以第4列都为0。另外自身和自身也定为0,这样该矩阵的对角线上也都是为0。
    一个巴掌都有大小,网页与网页之间当然有质量上的差异,一个好的搜索引擎就需要定量地把这种差异描述出来,谷歌通过解决P矩阵特征值的问题,来完成这个评级(rank)。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容