在做IOS的阶段,认识的一位我赞赏的学长KyX,他在我迷茫的时候推荐了一本计算机的数学书《数学之美》;我买来翻了几页就借给了同学看,同学看了在计网课上归还给了我。
打acm的同学在课间看到这本书还笑了笑问我要做算法吗。我笑回“不做就不能看了吗,写的挺好的,扩展下知识嘛”。当堂计网络课的李双庆老师说,“推荐你们去看看吴军的《数学之美》,很好的一本书”。寒假没想干啥,就想翻翻闲书。看了《三体》&《数学之美》,先说《数学之美》,是因为真的写的不错。我也推荐你去看看,或许你就不会再抱怨大学为什么要学高数,概率论,线代了。
《数学之美》来自于google黑板报连载的系列文章,涉及了自然语言处理、互联网技术、数据挖掘、机器学习、搜索技术等计算机新领域。深入浅出的介绍了里面的技术原理和数学知识,皆总结于“术”,升华为“道”,相信对所有人都受用。
你绝对想不到他会如何从计算机、通信的的角度如何去解释文字、语言。语言也是信息,信息通过编码解码实现人与人之间的交流。比如中文,一句想说的话通过中文语法编码通过声音传给对方,对方在根据声音解码理解信息的含义,从而进行交流。这就奠定了语言在计算机中进行处理的基础。
自然语言的处理早期是基于语法规则是做语法、句法分析,用语法分析树来分析。但这个模型对计算机仿佛不那么适用,因为语言太有活力了,他的每个词意还会由上下文决定,而不仅仅是语法规则。20多年后,人们才开始基于统计的方法进行处理,讲解了如何用条件概率、马儿可夫假设做二元模型,以及用大数据进行模型训练,0概率问题的平滑解决办法,这些思路是很巧妙而简洁的运用了概率方法。人的语言在统计下变得有规律了,而计算机擅长的计算也能利用这概率进行快速的计算,而不是像人一样去分析语法语义。后续的隐含马尔可夫模型也是机器学习的主要工具之一,书中也进行了结束,读一读总是有收获的。
我最惊讶的是信息的度量和作用一节,信息量可计算吗?我遇到这个问题的时候思考了很久,信息也可以量化? 信息熵——信息量=不确定度的多少,香农提出的信息的度量还真是有意思。因为有关的信息可以消除不确定性,比如你知道了明天要下雨,那么就可以大致绝对要不要出门打球啥的。互信息就可以衡量这种信息之间的相关性。
书中不仅仅是单纯的数学,还是人格魅力,在对贾里尼可的描述展现了一个正直公平、善于引导学生、热爱科学技术的人,有句话非常可爱,我看到这里自己都大笑起来了,贾里尼克对语言学家因为几件事产生了不好打印象,他生气的说“我每开除一名语言学家,我的语音识别系统识别率就能提高一点”,真是幽默可爱。
后续还有搜索引擎、网络爬虫、图论、网页排名、本地搜索、利用余弦分类、密码学、神经网络、大数据等等的介绍,趣味十足,浅显易懂,推荐你赶紧看看去~(待更)