行业联盟云平台欢迎您!

收藏本站

当前位置:资讯首页 > 物联网

百度首席科学家吴恩达:语音识别将会推动物联网革命

2015年03月23日14:27中国行业联盟
吴恩达指出,如果能把语音识别的准确率真正做到99%,我们甚至可以把所有手机的接口做重新的设计和修改,使我们自己更加习惯于语音通话指令的发送方式,这可以推动这个领域的革新。

吴恩达还表示,在手机之外,我们的话音识别还会推动物联网的革命,从汽车界面到家用设备到可穿戴设备将会发生很多的改变。我在家里有5个遥控可以控制的东西,我想再过几年再回过头来看,我们会觉得这 5个遥控太少了,比如你只是遥控电视,只是遥控空调,简直不够了,看来都是小儿科的东西。

以下为吴恩达演讲实录:

吴恩达:大家好!我还是每天学习一点中文,不过我现在普通话还是不够好,所以如果有这个耳机,我今天还是讲英语,请翻译者帮我翻译。

我们看到新的人工智能技术出现,我们把它称为深度学习,深度学习给我们带来了巨大的价值,给很多的IT公司也带来很多的价值。我相信人工智能,我指的是 新的人工智能,也就是深度学习给我们带来的影响将会越来越深远。在座的各位很多是企业的领袖,所以未来大家可能会做出对你的组织有利的很多重要的决定,可能是公司,也可能是大学,这都是在深度学习方面的,所以我想分享一些对大家有用的东西。首先我讲一下为什么现在人工智能的发展非常迅速,第二要怎样进行投 资来推动人工智能的发展。我们在全球看到的人工智能发展趋势,以及我们面临的机会和挑战。
百度首席科学家吴恩达:语音识别将会推动物联网革命
我希望在我的演讲当中关注三个领域,我觉得这三个领域正在发生重大的创新,一个是图像,第二个是语音,第三个是行为。我们先从图像开始,很多年前我还在斯坦福大学教课的时候,我问学生一个问题,就用 当时一个人工智能的技术找到一个咖啡杯,结果非常乱,他们觉得整个厨房台面上放的都是咖啡倍。可是过去几年技术已经取得了巨大的发展,在这些年当中,人工 智能的发展曾经一度比较低迷或者说比较慢,而在最近几年当中有一类新的人工智能技术出来了,我们把它称为深度学习,也就是使计算机学习了更多人类的神经系 统,来更好地解决比如说图形识别的问题。我们有时候不是很清楚人脑究竟是如何工作的,而我们要真正把深度学习做好,就必须要了解人脑在做什么,人脑当中发 生了什么,这对我们来说是非常重要的。我们使用这些计算的结果,我们可以给他们提供很多的数据,比如咖啡倍图像的数据,这样我们可以获得更好的计算机视 觉。做更好的辨识,我们对于网络神经的研究,对于人工智能的研究进行了好多年,所以有些人问我为什么在最近几年,比如最近五年才获得比较快速的发展,要回 答这个问题我需要打一个比方。

比如如何构建火箭,火箭的形状包括两件事情,一个是发动机,另外一个是燃料,这两部分是非常重要的,必 须 把这两方面做好,我们才能有机会把这个火箭发射到太空中去。如果你的发动机太小,燃料太大不行,发动机太大燃料不够也不行。所以火箭发动机和火箭的比例非 常好才能够确保火箭准确地发射到轨道当中,这给我们深度学习也带来了一些启示。我们在深度学习的过程当中就像发射火箭那样研究巨大的神经网络在我们的社会 当中每天都发生着巨大的活动,而且人们的活动多数都是围绕着他们的手机和电脑来开展的。我们如何利用这种新的情况呢,或者新的环境更好地帮助我们了解巨大 的神经网络呢?

我们的社会越来越多地进行数据化或者数字化,我刚才已经说了人们很多生活都是围绕着手机和电脑来开展的。我想和大家分 享一下我过去的一些经验,在IT世界发生什么,来构造更好的IT行业的火箭发动机和燃料的比例配比。在很多年前,当深度学习这个概念刚刚开始的时候,更多 的 是使用CPU技术,构建小的神经元网络只有100万或1000万的连接。我所说的是计算机连接的数目,之后我们取得了一些进展。其中在2008年发生改变 的事情就是GPU技术的发展,我们看到它的连接数目也发生了巨大的增长,GPU是手机上、pad上的硬件来帮助你做计算,有些人意识到硬件对我们加速深度 学习非常重要,发挥着非常重要的作用。我们借助GPU可以构造越来越大的神经元网络。在往后,我们看到了更多大规模的发展,像谷歌的深度学习项目,使我们 更多地了解相关的知识,我们有了更多的云,更多的CPU来推动相关的发展。现在我们看到的,我也认为这是下一阶段的趋势,就是我们要从云技术,或者说仅仅 利用纯技术跳到HPC或者叫高性能的计算技术,超性能的计算技术。我不想讲过多的细节,因为它会偏重于技术,让我们更多地来看今天所关注的话题,HPC和 云,这可能是两个比较分离的社区,研究云和研究HPC的人也是两类人。随着云技术的发展,你可以同时使用上千台计算机,不用担心这么多计算机会发生崩溃, 这种情况是不会发生的,现在已经认证了这点。而HPC技术比较小数目,但是更贵、更高性能的硬件,而我们也认为这对于我们构造更好比例的火箭引擎也是更佳 的一个解决方案。

在中国,我们其实在一些领域是比较领先的,甚至领先于世界很多其他先进国家。HPC到深度学习的跳越,而其他国家也 确 实进行大量的投资,这也是需要我们注意的。使用这些火箭引擎,再做一个类比,我还想给大家举一个这样的例子,看我们究竟能做什么。比如说计算机系统对人脸 的识别,这对我们来说也是比较重要的计算机应用。比如针对安全的目的,还有保安的目的,这都是在未来会越来越多的应用。大家对这张脸都很熟,美国著名的影 星,通过人脸识别可以告诉我们是同一张脸,这当然是最佳的结果,不同的组织使用不同的技术,他们得到的结果也是不一样的,这是因为有时候这个软件的计算也 会发生不同。

我希望大家参考一下这个柱状图就可以了解相关的计算结果了,我们是这周才宣布我们能够在这方面表现得比其他大多数公司都要好。谢谢大家鼓掌鼓励!

和其他公司相比,比如说和谷歌、脸书相比,谷歌和脸书的火箭燃料比我们多,也就是他们的数据比我们多。但是我们在发动机上的投资比他们多,我们在发动机上的投资多给我们带来巨大的好处。我们在发动机和燃料的比例方面要做得好才能确保这是一个好的火箭,我们正是在发动机方面进行大量的投资。所以我们才在人 脸识别领域和其他领域比其他国际上领先的大公司要做得好。我们在人脸识别只有0.3几的错误率,大家可以看到我们的比例多么高,我给大家演示一下我们所发 生的错误。看一下这张脸,你觉得哪两张脸是动一个人的脸,还是都不同的?比如说在左边的女人的脸,和其他哪张脸是相同的,大家能告诉我吗?我们所犯的9个 错误,其实就是发生在这里面,这些都是一个人,大家根本想象不到,他们都是一个人,发生错误可能是数据的关系,不是我们自身的关系。而下面是不同的人,大 家能看出来了。我刚才提到了识别,像咖啡杯,还有人脸的东西,除了这些电脑能够做的事情,还有很多,它能够理解图片还有很多,如果我们能够在这方面做得很 好的话,这张图片能够告诉我们很多东西。比如我们看左边,如果要求你写字幕的话会怎么写呢?你可能会写有一辆黄色的车在路上开着。如果要为右边的图片写字 幕的话会怎么写呢?你可能会写起居室充满了下午的阳光。这个还不够充满激情,我们还可以通过深度学习让你了解更多的信息来写一篇更有吸引力的字幕。

一个计算机能不能了解你我了解的图片信息呢,或者能不能像人脑一样工作了解我们想了解的信息呢。可能结果是非常让大家吃惊的。现在我在图片上显示的字幕 并不是人写的,而是机器写的,这就是我们百度可以提供的技术,也是我们起步的技术。而其他公司甚至还没有搞清相关的概念,他们有一个笼统的想法要提高电脑 图像的识别,在过去几年,具体来说大概三年的时间内,计算机图像的技术发展非常迅速,现在计算机在图像识别上,比更多年以前要做得好得多。现在很多计算机 公司甚至比很多人脑眼睛一眼看上去了解的信息还多。我们有一些想法、有一些产品,也有一些技术,我想说的是这些技术给我们开启了无限的可能,可以使我们来 了解一下哪些产品领域是大有可为的。我们可以在图上了解一些相关的领域,比如百度还有其他的搜索引擎正在做的事情。我不知道一个非常清晰的路线图是怎样 的,或者哪个领域会发展得更加迅速。

比如百度在衣服的搜索方面做很多东西。还比如对老年人的照顾方面,我们也做了一些探索,因为中国现在面临人口老龄化的问题。还有在可穿戴设备方面也有一些新的举措。我们希望在这些新领域的探索开启更多的机会,使我们可以创造更大的产业。

来看一下计算机的发展,我想跟大家分享一下第二个领域语音识别方面我们做的东西。在移动互联网方面,大家对互联网的使用,对手机的使用越来越多的结合起 来。我们过去是用键盘,包括手机键盘来敲字,这是比较浪费时间的,大家现在用话音来进行沟通,所以语音识别是一个非常重要的发展方向。大家可以试一下百度 上面有相关的应用,现在已经做得比较好了。而大家现在普遍反应在手机上进行语音通信的时候,如果手机离得比较远的话效果不是很好,要比较近的时候语音识别才做得比较好。我们在相关的IT技术方面也做一些探索,从传统领域来看,这是语音识别所做的事情,基本上所有做语音识别的公司都是使用非常复杂的管道。我 们来改善它的话音系统,突出声音特征,有一些不同的模块,不的的模块组合起来识别这个人到底讲了什么。

我们百度做的是什么事情呢?我们把所有这些东西都替代掉,用先进的人工智能技术替代掉,用先进的深度学习技术来替代掉,这就是我们百度的深度语音,我们的火箭发动机。大家看到这个话音识 别的结果如下,很多公司用的是依靠大量的数据,而百度忘掉那些数据吧,我们将用1万的数据集进行人工智能处理,这就是我们的火箭燃料,我们形成了一些研究 的结果。大家可以看到,基本上结果是不可想象的。

人们之前从来不会想到能利用这么多的数据,我们使用神经元系统以及数据燃料,我们发布了这样一个结果,我们可以极大地提高语音识别的准确性。根据我们的计算结果,我们的调查结果,我们现在正处于这样一个环境,如果你对着手机说话提出你的要 求,我们的接口是做得越来越好了。我们可以很好地处理背景噪音,使手机更好地识别你自己讲出的话。我非常兴奋,我们能够在这方面做得越来越精确,做得越来 越好。在百度,我们已经看到了使用话音识别的用户越来越多了。因此在这个领域,我们还有很多要提高的。很多人是低估了95%的准确率和99%的语音识别准 确率的差别。如果我们能够做到95%的话,也就是今天的状况,你说话要非常清楚,要离话筒非常近,必须这样才能识别出来。如果我们将来能做到99%的准确 率的话,这和95%简直是天壤之别,这会彻底改变我们的玩法。如果我们能真正做到99%,我们甚至可以把所有手机的接口做重新的设计和修改,使我们自己更加习惯于语音通话指令的发送方式,这可以推动这个领域的革新。你手里的东西将不是传统上的手机了。

在手机之外,我觉得我们的话音识别还会推动物联网的革命,从汽车界面到家用设备到可穿戴设备将会发生很多的改变。我在家里有5个遥控可以控制的东西,我想再过几年再回过头来看,我们会觉得这 5个遥控太少了,比如你只是遥控电视,只是遥控空调,简直不够了,看来都是小儿科的东西。在几年的时间内,或者在未来几年,我们将能够和电视通话,和更多 的家电通话,这将是未来面临的发展,我们将有很多的路由器内置到这些机器当中。

这是对语音识别的介绍,下面再看一下最后一个部分,也就是行为这块。

我们看到很多技术公司现在都能够获取到一些大数据来了解人们在互联网的环境当中究竟是什么样的行为,这是技术的发展。我们可以从这些数据当中挖掘更多的 价值。正如很多人都知道的,我们百度的广告也是在人工智能方面下了很大的工夫,我们有很多数据搜集过来是关于人的行为的,而这些深度学习可以使我们了解人 们的行为是什么样的,他们倾向于做什么事情,他们喜欢做什么事情。因为我们的数据中心还有很多数据搜集起来,使我们了解不仅仅是人的行为,还有机器人行 为。今天的深度学习确实是一个非常强大的工具,使我们可以了解机器在做什么,来更好地管理数据中心。比如我们可以使用这方面我们了解的信息来更好地使机器 运作。我们也可以更好地了解计算机是如何工作的,我们还可以使用深度学习来提高计算机的安全性。

这是我们百度正在做的事情,我们觉得 很 多行为数据给我们带来的机会,包括人的行为,包括机器的行为,可能比我们今天所了解到的要广得多。美国、中国和欧洲现在都越来越多使用深度学习来了解人的 行为,了解机器的行为。在IT世界当中以及IT世界之外挖掘更多的机会,这也推动了我们未来的成功。我非常兴奋地了解到深度学习在上述三个领域都给我们带 来了巨大的改变或者将会带来巨大的改变,我刚才用了火箭的引擎和燃料来做类比,使大家更生动地了解我们所面临的改变。

最后我跟大家分 享 一个框架,人工智能能给我们带来什么,人工智能的循环发展是非常迅速的,在15年前,我们有这张图,我们有这个想法,这就是AI人工智能的良性循环。那时 候我们如果能够构造优秀的产品可以吸引更多的用户,有了更多的用户就可以获得更加大量的数据。现在这个良性循环确实已经就位了,现实就是这样。而还没有发 生的事情,我们以前想过但还没有发生的事情,更多的数据通过人工智能被你更好地利用,来推动更多的优秀产品被生产出来,而这个只是在最近几年我们才做的事 情。而我们的火箭引擎现在不够大了,而我们的燃料变得越来越大了,现实世界是这种情况。大家搜集到的数据越来越多了,可是引擎不够大,所以不能深度地利用 这些数据。在我们搜集更多数据的过程中,推动更多应用发生的过程中,这是我们之前那些老的算法是连想都不会想的。而深度学习之所以能给我们带来更多的价值 就是因为我们现在可以从越来越多的数据当中受益,获得越来越好的结果,开发越来越多的潜能。所以我说深度学习确实改变着我们的生活,改变着传统的人工智 能,使我们最终可以把链接做得特别好,把发动机和燃料的链接做得特别好,把产品、大量用户和海量数据之间的连接做得更加通畅。

最后我 想 说的是,在这个介绍当中,我主要是关注了图像、语音和行为。但是对于人工智能的机会来说远不止这三个方面,我们看到在自然语言的处理方面有很多的事情可以 做,在生物技术方面人工智能也有很多东西可以做,这些创新都在发生的过程当中,人工智能也可以更多地被应用到机器人的开发。百度大脑大家都听过吧,还有这 也是最近大家比较熟的中国大脑紧密联系起来的概念。在很多年前,百度可以从应用当中吸取更多的价值,在百度专门有一个团队,他是余凯和王晶领导的,这个团 队主要是构建深度学习的内部平台,这个平台可以做的事情是什么呢?可以支持百度的工程师获取CPU、GPU和深度学习的平台资源,他们可以使用这些技术来 推动他喜欢的应用。而这些在公司当中就推动了深度学习的繁荣发展。因为我们创造的东西那么多,我们人工智能很多应用的领域,我们甚至还想象不到,还不知 道。我想面对未来,可能机会会更大,能想象到的和不能想象到的机会会更多。我们可以抓住的方面也很多,可以真正帮助我们重塑经济结构。面向未来,如果想看 一下人工智能给我们带来的潜在影响的话,我不得不想到第一次工业革命,第一次工业革命是在英国,最后蔓延到整个欧洲的。我想这次工业革命在当时也是推动了 一些新技术的发展,最初在英国,最后整个欧洲都采用了这些技术,这是一百多年前,快两百年的事情了。我也希望大家能把眼光放在未来的工业革命上面,它给我 们带来的影响是非常深远的。这些工业革命也可以把人们从日常重复繁重的工作当中解放出来,把人性解放出来,把人的思想解放出来,使人们不再成为思想的奴 隶。这些变革,这些工业革命将会使我们的生产力获得极大的提升。