在上周O’reilly举办的AI Conference上,吴恩达进行了主题为“AI是新的电力”长达25分钟的演讲,演讲中吴恩达亲自板书,内容也是干货满满了。
在主题为“AI是新的电力”的演讲中,吴恩达主要探讨了以下四个主题。
· AI能做什么?
· AI和产品
· 互联网公司和AI公司
· 给AI领导者的建议
CDA字幕组对演讲进行了汉化,附有中文字幕的视频如下:
https://v.qq.com/x/page/c0554j675vf.html
针对不方面看视频的小伙伴,CDA字幕组是贴心的整理了文字版本如下:
吴恩达《AI是新的电力》:
谢谢,很期待跟大家进行交流。周末的时候我在想,什么内容对大家才是最有用的。在本次讲座中,我将涉及我所了解的AI领域的趋势。并尝试给工程师、观众,以及在座的商业领导者和管理者提供一些建议和意见。
本次演讲的标题是“AI是新的电力”。我想和大家谈谈 AI可以做些什么。首先让我们看到AI和产品。除了飞速发展的技术进步,我们要将令人兴奋的研究转换为能够帮助人类的产品,这还有很多路要走。
我一直在说的一个概念是,AI时代在怎样改变公司间竞争的基础。正如互联网公司的兴起,我认为会出现AI公司的兴起。让我们谈谈这个问题,以及这对你的工作,业务带来的影响。最后我将给AI领导者提出建议。
我多次重申"AI是新的电力",这指的是,大约一百年前电力开始彻底变革每个行业。运输、农业、制造、通信都被电力所改变。如今很难想象这些行业离开电力会是什么样子。我认为今天的AI已经足够成熟,我们可以清晰的看到AI也在改变几乎每个主要行业。
我下面要说的可能有些天真,我十分期待能够建设一个由AI驱动的社会。在未来的某一天,我们每个人都会有自动驾驶汽车;给每个孩子提供个性化的辅导老师。建立一个由AI驱动的社会,我们周围的一切都具有AI智能,并改变人类的生活。
这需要的不仅仅是一个公司的努力,而是我们所有人一起努力,试图弄清楚社会能够怎样运用这些新的AI技术。
AI能做什么
首先确保我们想法是一致的。除开关于AI的热度 AI能够做什么?
你可能听过,如今AI的主要价值和经济价值,或者很大部分的价值都是来自于监督学习。也就是从A到B,输入到输出的映射。术语是监督学习。
例如给出一个图像作为输入A。AI或学习算法会输出,判断这是你的图像,得出输出0或1。
我认为如今最赚钱的机器学习应用是在线广告。给出广告和用户信息,输出用户是否会点击广告。对于推出广告的公司来说 每次点击都是金钱。因此评估你最有可能点击哪个广告,从而向你展示最相关的广告,这是利润颇丰的业务。
还有消费贷款,贷款申请。以及用户是否会还贷,这是消费金融方面。在过去的几年中,学习算法变得更好更准确。在这些A到B的映射,当中存在巨大的经济价值。
我认为AI其他令人兴奋的进展之一在于,不仅仅能够输出像0 或1的整数。同时随着算法的迅速创新,输出B是不再仅仅是数字。
例如,当我负责百度的AI团队、谷歌大脑团队时,我们对语音识进行了很多研究。我们发现能够输入音频,输出文本,而且得到很好的效果。我们有足够的数据。这类算法为亚马逊的Alexa、苹果的Siri、百度DuerOS提供了基础。
我们还有更好的机器翻译系统,TTS是输入文本、输出语音的系统。有很多团队在对这方面进行研究。其中包括谷歌和百度。如今输出不仅仅为数字,已经扩展到许多方面,学习算法也是如此。
但所有算法的缺点在于对数据的需求。事实上你需要A和B的大量标注数据。监督学习限制了它们的普及。
听过我之前讲座的人可能看过我画这个图。人们经常问我神经网络已经存在很多年了,为什么AI研究最近才开始迅速发展?那么我通常就会画这幅图。x轴表示数据量,y轴表示算法的性能或正确率。
如果你使用传统的学习算法,传统机器学习。传统的机器学习往往看起来是这样。在过去的二十年间,随着社会的数字化,越来越多的活动转移到数字领域。加上IT、产业物联网,许多的行业和工作中开始累积越来越多的数据。
但直到最近,我们还没有算法能够利用这些数据。从而导致性能发展的停滞,即使我们给传统算法中输入越来越多的数据,比如逻辑回归。
真正的突破是从五年前开始的。如果你对小型的神经网络 深度学习算法进行训练,性能会稍微好一些。如果对中型的神经网络进行训练...NN是我对神经网络的简写,大致与深度学习意思相同。如果对大型神经网络进行训练,性能不断提升。可能一直达到上限即人类级别的表现。
但是性能会持续提升,这意味着为了达到最佳的性能,往往需要两样东西:一个是你需要大量的数据。也许大数据是当中的一个选择。
另一个是你需要大型的神经网络。这就是为什么我认为GPU和高性能计算的发展,促进了可拓展性的发展,从而让我们构建神经网络。
很多年前当我读高中的时候,我找了一个在神经网络中编程的实习。我认为把高中所写的代码拿到今天来运行,把隐单元的数字设大一些,如今也是能很好运行的。公平地说,同样还有算法的巨大进步,而并不只是规模上的。
经常有人问我“Andrew,机器学习中最大的发展趋势是什么?有价值的创新是什么?”
如今环顾众多行业,我认为绝大多数的经济效益是由监督学习创造的。
我考察了许多公司,人们经常问我“监督学习之后会是什么?”我认为迁移学习如今也在创造很多价值、由于一些原因,这个概念不够"性感”,所以人们谈论的很少。
这个概念你可能从物体识别中听过,还有大型的数据集,比如ImageNet。将当中的知识运用到医学X射线图像诊断上。现在这实际上在创造经济价值,这很实用。
我认为无监督学习是一个非常好的长期研究项目,我对此非常期待。这创造了少量经济价值,特别是在自然语言处理的词语嵌入中。仅是我的个人看法。
强化学习是很有意思的,我研究了多年,并做出了些成果。我认为舆论热度与其实际的经济价值不太成比例。属于机器学习其中一种类型的强化学习,实际比监督学习对数据的需求更大。为强化学习算法提供足够的数据是很难的。
事实证明强化学习很擅长玩游戏,因为在玩游戏中,算法通过自己计算可以无限次的玩。除了游戏之外,在机器人方面的应用。比如构建模拟器,无限次的玩电子游戏、驾驶汽车或者让机器人行走等等。把这些转换到商业应用中还有很长的路要走。
如今这几个领域所创造的经济价值是递减的,当然这只是现在的情况。如今计算机科学在持续的发展,每时每刻都有突破。每几年就会有天翻复地的变化,因此在几年内就可能出现突破,从而这几个领域会很快的重新排序。
我注意另一个有趣的事情是,如今越来越多的经济价值是机器学习或深度学习,通过结构化数据以及非结构化数据所创造的。
结构化数据意味着,比如你的数据框中记录了消费记录。谁在何时购买了什么,谁在何时给谁发了消息。信息的数据框结构。
非结构化数据,类似图像、音频、自然语言等内容。我认为非结构化数据很有人性化,我们很多人都理解非结构化数据。
很多的舆论热点热度都在深度学习的非结构数据方面,然而结构化数据对于公司更加具体。比如你是拼车公司具有这样的数据库,用户何时叫了车,等待了多久等等。
因此结构化数据往往更垂直化,但是不要低估深度学习在结构化数据方面所能创造的经济价值。即使结构化数据舆论的热度更小。
监督学习方面,这已经为商业、产品、初创公司 、成熟企业创造了巨大的机会,让他们生产出新的有趣的产品。
AI和产品
有意思的趋势是 ,AI的崛起正改变着公司间竞争的基础。如果要开展新业务的话,壁垒不是算法而是数据。
当我推出新的业务时,我们会特意设计良性循环。
这里有一个具体的例子,大约两三个月前,我的斯坦福大学的学生构建了一个诊断心电图(EKG)的系统。使用深度学习RNN结构,这个不是业务只是一个研究项目。
但如果是业务的话,我们需要通过合作使用算法搜集足够的数据,这能够推出产品。但这只是一个研究项目,我们并不用推出产品。
通常推出产品能够让你获得用户,用户能够给你更多的数据,从而得到数据收集的循环。一段时间之后 你将拥有庞大的数据资产,这是竞争对手所难以复制的。
有一个例子,比如搜索公司。如今网络搜索公司拥有很有价值的数据。这会告诉他们,如果你搜索某个词,你更有可能点击这个链接,而不是另一个链接。
我曾带领过一些顶级网络搜索公司中优秀的AI团队。那些数据让我能够对搜索技术的算法有很好的理解。我很难想象小团队如何构建有竞争力的网络搜索引擎。因此数据资产成为企业最有利的保护壁垒。
但是很多小公司开始也是通过不断收集,收集足够的数据从而推出产品。幸运的话能够得到一些用户,这个数据收集循环在过了一段时期后,一年或两年后能够让你建立可靠的业务。
实际上当推出产品时,我们会有战略性的制定每几年的规划,在市场中争夺数据。
AI不仅仅是监督学习,AI有很多热点。我认为AI包含了很多的工具。包括机器学习,图模型也被认为是一种AI工具。规划也被认为是AI的一部分,还有知识表示。可能知识表示这个表达有点老,也许你们更熟悉知识图谱这个说法。
知识图谱对很多产品是很有用的。我认为人们的关注点集中在机器学习,深度学习。原因在于对比其他的领域...
有时我有参加一些会议,比如UAI,图模型会议等。这些均已取得了稳步发展。比如图模型就比之前几年表现更好。知识图谱,算法技术的能力也在不断发展。规划算法也在逐年提高。如果看到这些领域,你会发现机器学习。特别是深度学习都在飞速发展。
如今当我建立AI团队处理AI项目时,我实际上会用到图模型。有时用到知识图谱,有时用到规划算法。但我认为还未开发的最大机遇在机器学习和深度学习中。因为最快的进步和重大的突破就是源于这里。
下面给大家分享一个图,我有时把它作为心理框架。
当看到问题的时候。一些人会认为算法、计算机有两个不同来源的知识。计算机如何能够明白该怎么做?这里分为数据,以及人类工程。
根据不同的问题你要使用的工具也不同。例如在线广告,有很多的数据。关于你会点击什么广告,不会点击什么广告。有很多的数据,人类工程要参加的相对较小。
上周我与一个合作伙伴,我们在进行医疗保健方面的项目。当中我们的数据量很少,只有一百多个样例,从而需要大量人工的介入。因此针对这个问题,我们决定设计贝叶斯模型 图形模型,来获取人类方面的知识。
还有介于两种情况之间的问题,没有大量的数据,需要更多的人工介入。
这就是为什么一系列不同的AI算法是很实用的。但我认为最大的机遇来源于当你有大量的数据,从而深度学习算法能够让你做有价值的事情。
最后我想说说对工程师和管理者的建议。
有很多工程师想进入AI领域,那么应该怎么做呢?
如今有很多人通过在线课程进入机器学习领域,比如我在Coursera上的机器学习课程,DeepLearning.AI在Coursera推出了一系列深度学习的课程。
但有一个不被工程师所重视的就是,阅读研究研究论文的重要性。不仅是阅读论文,还要重现当中的研究成果。
我在斯坦福大学看到的是这个重复的过程,读研究论文,重现他人的研究成果。这样多次进行之后 能够内化成自己的东西,从而得出自己的观点。
对于工程师,我建议你的学习过程是:学习机器学习的网络课程,在Deeplearning.AI 或Coursera上。打下知识基础,然后阅读论文,参加各种活动比如这种会议,不断构建自己的知识基础。
上周我进行了Quora的问答讲座,当中我谈到了这些问题,你也可以看看。
互联网公司和AI公司
时间有点不够了,好的。下面想跟大家分享一个观点 ,不确定我能讲好。可能是我今天跟大家分享的最重要的概念。
大约在二十、二十五年前我们开始看到互联网的兴起。互联网成为一个重要的事情。
我从中学到的是:建一个购物商场,并建一个网站,这不等同于一家互联网公司。
商场 + 网站 ≠ 互联网公司
玩具连锁店Toys "R" Us昨天刚宣布了破产,这很令人伤心。
那么互联网公司的定义是什么?
我认识一个大型零售商的CIO,有天他对他们的CEO说:“我们在网站上卖东西,亚马逊也在网站上卖东西,我们是一样的。”
并不是的,他们可能也会在某刻破产吧。
能够定义互联网公司的,并不是你是否有网站。而是你们是否进行A/B测试,是否有很短的周期迭代,是否把决策由CEO交给工程师和产品经理。
这些才定义了真正的互联网公司,这些是亚马逊所擅长的。如果你希望公司能够利用互联网的功能,这些是你需要构建的。
因为如果你不做A/B测试,而你的竞争者做的话,他们将学的比你们要快得多。这才真正定义了互联网公司。
我们已经听到了很多关于AI公司的,那么AI时代是怎么样的呢?
我非常有幸,能够带领AI团队帮助谷歌转型成AI公司。谷歌当中很多都进展的很顺利,不止是我的AI团队。同时我有幸带领AI团队,帮助百度转型。很多人认为百度是中国领先的AI公司。
那么建立AI公司需要些什么?
我学到的重要内容之一是,传统的互联网公司加上一些机器学习或神经网络,这是不等同于AI公司。有些人使用神经网络并不意味着你是AI公司。
传统科技公司 + 机器学习/神经网络 ≠ AI公司
二十年前我并不知道A/B测试对于互联网的重要性,花了一段时间我才意识到。AI公司往往更加擅长战略性的数据收集。
当推出产品时,我试过在一个地区推出产品。尝试用这个来获得数据攻下另一个地区,又用这里的数据拓展另一个地区,获得这些数据但并未从中获利。这所有的数据都是为了更大的目标。
关于领先的AI组织,当中当然要包括谷歌和百度。他们都有复杂的AI策略,领先的AI公司会制定多年的策略,以及战略性的数据收集。
下面这点更具战术性,但也是你今天可以用到的。AI公司往往具有集中式的数据仓库。
很多公司有分散的数据仓库,假如你在各个地方有五十个数据仓库。如果工程师想把这些数据整合在一起做点什么,那么工程师需要与五十位负责人沟通,获得数据的权限。这几乎是不可能的。拥有集中式的数据仓库是很好的决策。
还有普遍的自动化,以及新的职位描述****。
例如在互联网时代,我们设计应用程度的流程。由产品经理绘制线框图。比如Facebook,当中有Logo、朋友的头像、一些按钮。产品经理绘制线框图,工程师去实现它,弄清当中的流程。
但在AI时代,比如你要做聊天机器人。产品经理跟工程师说“请把聊天气泡做成这样。” 这就是线框图。
然后工程师就会说:“这是什么?我不关心聊天气泡是什么样,我需要知道聊天机器人要说什么。” 线框图对于聊天机器人并没有用。
还有更极端的例子,如果你的产品经理画了自动驾驶汽车的线框图。他们说“我们想做这个。” 这完全没有用(全场笑)。
因此AI公司中,产品经理与工程师交流时,需要学习使用数据、正确度以及精确率反馈。
给AI领导者的建议
对于CEO的建议,我可以说很多。但是时间不够了。
具体的可以看看我给《哈佛商业评论》写的文章,当中我写了很多给高管的建议。
我的发言到此结束,谢谢大家。
CDA字幕组 编译整理
本文为 CDA 数据分析师原创作品,转载需授权