机器学习(一):机器学习简介

前言:本系列博客军参考书籍[Python机器学习](https://download.csdn.net/download/u012806787/10372436) 此书,如有侵权,敬请谅解。本书尽量用总结性的语言重述本书内容,避免侵权。 [下载本书](https://download.csdn.net/download/u012806787/10372436)

机器学习要先了解“机器”,以下是几种机器列举

智能硬件

计算机

百度百科的解释如下:

手机

机器人


人工智能计算机、人工智能手机、人工智能机器人、人工智能家电、人工智能音响等等相信在不久的将来一定会深入每一个普通的家庭,可以毫不夸张的说,变化已于无声处来。

数据转化成知识

我们正处于现代化技术飞速发展的时代,同时还拥有大量的结构化和非结构化的数据资源。机器学习只是人工智能的一个分支,最近火热的人工智能概念已经深入人心,那么要进入人工智能这个行业,机器学习必须先行。

机器学习的目的是通过对自学习算法的开发,从数据中获取知识,进而对未来进行预测。机器学习不仅在计算机科学研究领域显现出日益重要的地位,而且在日常生活中也逐渐发挥了越来越大的作用。机器学习技术的存在,使得人们可以享受强大的垃圾邮件过滤带来的便利;拥有方便的文字和语音识别软件;能够使用强大的网络搜索引擎;同时在围棋领域中完胜世界一流人类职业选手;而且在不久的将来我们将会拥有安全高效的无人驾驶汽车。

百度,阿里,腾讯每天PB级别的数据产出,部署在阿里云服务器上成百上千的爬虫服务在7*24不停歇的爬去网络数据,如果能够充分发觉数据的价值并利用他们,将会对我们的生活有很大的改善。

介绍

机器学习的三种分类:监督学习(supervised learning)、无监督学习(unsupervised learning)、强化学习(reinforcement learning)

监督学习

    监督学习的目的是使用有类标的训练数据结构模型,我们可以使用经训练得到的模型对未来数据进行预测。

    “监督”:训练数据集中的每个样本均有一个已知的输出项(类标-label)

    例如:以鸢尾花分类为例,数据集提供了150个包涵花萼长度,花萼宽带,花瓣长度,花瓣宽度等四个特征的3类鸢尾花。

    以已知的前100条数据为训练样本,这100条数据已经被明确分类为哪种花,根据训练模型将其进行正确的分类。

    监督学习包涵分类(classification)与回归(regression)

利用分类对类标进行预测

    分类是对过往类标已知示例的观察与学习,实现对新样本类标的预测。

    这些类标是离散的、无序的值。

使用回归预测连续输出值

    回归问题输出项是连续值,针对连续输出量进行预测,也就是所谓的回归分析

    在回归分析中,数据中会给出大量的自变量和相应的连续因变量,通过尝试寻找这两种变量之间的关系,就能够预测输出变量

通过强化学习解决交互式问题

    强化学习的目标是构建一个系统,在与环境交互过程中提高系统的性能,

    环境的当前状态信息中通常包含一个反馈信号,我们可以将强化学习视为与监督学习相关的一个领域。

    然而,在强化学习中,我个反馈值不是一个确定的类标或者连续类型的值,而是一个通过反馈函数产生的对当前系统行为的评价。

    通过与环境的交互,系统可以通过强化学习来得到一些列行为,通过探索性的试错或者借助精心设计的激励系统使得正向反馈最大化。

    一个常用的强化学习例子就是象棋对弈的游戏。系统根据棋盘上的当前局态决定落子位置,而游戏结束时胜负的判定可以作为激励信号。

无监督学习

    在监督学习中,训练模型之前,我们事先可以获知各训练样本对应的目标值。

    在强化学习中,可以由Agent定义反馈函数对特定行为进行判定。

    然而,在无监督学习中,我们将处理无类标数据或者是总体分布趋势不明朗的数据。

    通过无监督学习,我们可以在没有已知输出变量和反馈函数指导情况下提取有效信息来探索数据的整体结构。

通过聚类发现数据的子群

    聚类是一种探索性数据分析技术。在没有任何相关先验信息的情况下,它可以帮助我们将数据划分为有意义的小的组别(即簇)

    聚类是获取数据的结构信息,以及到处数据间有价值的关系的一种很好的技术

数据压缩中的降维

    数据降维是无监督学习的另一个子领域。通常,我们面对的是高维的数据,

    这就对有限的数据存储空间以及机器学习算法性能提出了挑战。无监督降维是数据特征预处理时常用的技术,用于清楚数据中的噪声

    它能够在最大程度保留相关信息的情况下将数据压缩到一个维度较小的子空间,但同时也可能会降低某些算法的准确性方面的性能。

    降维技术有时在数据可视化方面也是非常有用的。

机器学习流程

1. 数据预处理

    为了尽可能发挥机器学习算法的性能,往往对原始数据的格式等有一些特定的要求,但原始数据很少能达到此标准。

    因此,数据预处理是机器学习应用过程中必不可少的重要步骤之一。

2. 选择预测模型类型并进行训练

3. 模型验证与使用未知数据进行预测

    在使用训练数据集构建出一个模型之后,可以采用测试数据集对模型进行测试,预测改模型在位置数据

为什么使用Python实现机器学习算法

    Python是数据科学领域最流行的编程语言之一,因此拥有大量由众多社区开发的附加扩展库。

    对于计算密集型任务,尽管解释型语言(如Python)在性能方面不如低级别语言,但使用相对低级别语言(如Fortran,C等)

    开发的扩展库(如Numpy,Scipy等)实现了多维数组高速向量化的运算。

    处理机器学习程序开发任务,我们主要使用最流行的开源学习库scikit-learn来完成。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,858评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,372评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,282评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,842评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,857评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,679评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,406评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,311评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,767评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,945评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,090评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,785评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,420评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,988评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,101评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,298评论 3 372
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,033评论 2 355