【科普周】入坑须知—机器学习扫盲篇(二)

欢迎关注哈希大数据微信公众号【哈希大数据】


上一篇给大家介绍了有监督学习、无监督学习、和强化学习的含义和例子,这些可能还不够具体,机器学习博大精深本期咱们继续看看机器学习还有哪些好玩的点?想要入门机器学习你该怎么做?有哪些好的资料可以帮助大家尽快入门?废话不多说咱们开始吧!

01 机器学习的应用

目前机器学习在以下场景应用非常火热:

1.推荐系统

网易云音乐每日推荐、每个人淘宝APP的首页都不一样这就是它对每个人的推荐、腾讯视频的“爱看”等。

2.自然语言处理

百度的机器翻译、文本内容理解、文本情绪判断、科大讯飞的语音识别、搜狗的输入法、谷歌的搜索引擎智能匹配、互联网金融的风控系统等。

3.计算机视觉

人脸识别、车牌识别、工业视觉检查、视频监控分析、文字识别、图片搜索、医疗影像检查,代表性的公司有商汤科技、Face++矿视科技等。

02 入坑必备

既然这个领域这么火想入坑的小伙伴该如何下手呢?一般范式是这样的:


image.png

目前在互联网领域从事机器学习的人,有2类背景的人比较多,其中一部分(很大一部分)是CS背景出身的,这类同学代码能力逻辑能力强,有想法可以很快上手。另一部分是学数学统计领域的同学,这部分同学理论基础相对扎实一些。因此对比上图,这两类同学入门机器学习,所欠缺和需要加强的部分是不一样的。要是都没学过先哭一会然后恶补吧!(调皮的某男神~~)

数理基础:

这块主要用到的是三块:微积分、线性代数、概率与统计,理工科的同学在本科时候应该都学过这三门课,如果不是搞高深的机器学习研究,需要掌握的知识点也不是特别难,比如理解梯度的含义、极值、求导、偏导数等,其中一个概念可能在本科的学习中接触的比较少——最优化或者叫凸优化。求解模型就是一个不断寻优的过程常用的方法有:梯度下降法、牛顿法等。建议大家看陈宝林的最优化理论与算法。

线性代数:

大家可能都学过,但学明白的可能不多,什么是特征值、特征向量、奇异矩阵等概念大家应该都忘了,重温的话建议大家看麻省理工Gilbert Strang教授的课程。https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/

矩阵乘法与分解在机器学习的主成分分析(PCA)和奇异值分解(SVD)等部分呈现刷屏状地出现,所以线性代数也要补一补。

概率与统计:

极大似然思想、贝叶斯模型是理论基础,朴素贝叶斯(Naïve Bayes )、语言模型(N-gram)、隐马尔科夫(HMM)、隐变量混合概率模型是他们的高级形态。

常见分布如高斯分布是混合高斯模型(GMM)等的基础。这个主要学习一些随机过程的内容,推荐张波的随机过程。

编程基础

目前做机器学习的编程语言主要有两大派系:Python和R,程序员出身的用Python较多,学统计出身的用R较多。对初学者而言,Python和R语言是很好的入门语言,很容易上手,同时又活跃的社区支持,丰富的工具包帮助我们完成想法。

python有着全品类的数据科学工具,从数据获取、数据清洗到整合各种算法都做得非常全面。

· 网页爬虫:request、scrapy、beautifulsoup、pyquery、re

· 数据挖掘:

· pandas:模拟R,进行数据浏览与预处理。

· numpy:数组运算。

· scipy:高效的科学计算。

· matplotlib:非常方便的数据可视化工具。

· 机器学习:

· scikit-learn:远近闻名的机器学习package。未必是最高效的,但是接口真心封装得好,几乎所有的机器学习算法输入输出部分格式都一致。而它的支持文档甚至可以直接当做教程来学习,非常用心。对于不是非常高纬度、高量级的数据,scikit-learn胜任得非常好(有兴趣可以看看sklearn的源码,也很有意思)。

· libsvm:高效率的svm模型实现(了解一下很有好处,libsvm的系数数据输入格式,在各处都非常常见)

· keras/TensorFlow:对深度学习感兴趣的同学,也能很方便地搭建自己的神经网络了。

· 自然语言处理:

· nltk:自然语言处理的相关功能做得非常全面,有典型语料库,而且上手也非常容易。

R语言有以下特点:

•R免费资源公开(不是黑盒子,也不是吝啬鬼)

•R全面的统计研究平台

•R支持多种操作系统可以在UNIX, Windows和Macintosh运行

•R 有优秀的画图功能.

•R可进行交互式数据分析和探索的强大平台

•R有优秀的内在帮助系统

•R语言有一个强大的,容易学习的语法,有许多内在的统计函数.

03 常用的机器学习模型

下面是寒小阳大神的总结:

  1. 处理分类问题的常用算法包括:逻辑回归(工业界最常用),支持向量机,随机森林,朴素贝叶斯(NLP中常用),深度神经网络(视频、图片、语音等多媒体数据中使用)

  2. 处理回归问题的常用算法包括:线性回归,普通最小二乘回归(Ordinary Least Squares Regression),逐步回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)

  3. 处理聚类问题的常用算法包括:K均值(K-means),基于密度聚类,LDA等等

  4. 降维的常用算法包括:主成分分析(PCA),奇异值分解(SVD) 等。

  5. 推荐系统的常用算法:协同过滤算法

  6. 模型融合(model ensemble)和提升(boosting)的算法包括:bagging,adaboost,GBDT,GBRT

  7. 其他很重要的算法包括:EM算法等等。

小小福利

最后给大家分享一些好的博客:

机器学习理论:http://hunch.net

寒小阳博客:https://blog.csdn.net/han_xiaoyang

文本与数据挖掘实用方法:http://textanddataming.blogspot.de

机器学习:http://www.machinedlearnings.com

FlowingData: http://flowingdata.com

简单统计:http://simplystatistics.org

机器学习与深度学习汇总:https://blog.csdn.net/zhongwen7710/article/details/45331915

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容