谷歌2017AI年度报告 2017年谷歌成绩有哪些?

 形大师   2018-01-12 23:24     0 条评论

图片来源:pixabay

原文来源:Google Research Blog

作者:Jeff Dean

「雷克世界」编译:KABUDA

谷歌大脑团队(Google Brain team)团队致力于通过科研和系统工程来提升人工智能的先进水平,这也是整个谷歌团队AI工作的一部分。去年,我们分享了2016年工作总结,从那时起,我们在机械智能化的长期研究方面不断取得进展,并与Google和Alphabet的许多团队展开合作,利用研究成果改善人们的生活。这两篇文章中的第一篇,将重点介绍我们在2017年的一些工作,包括我们的一些基础研究工作,以及开源软件、数据集和机器学习新硬件方面的新成果。在第二篇文章中,我们将对某些特殊领域(对于这些领域而言,机器学习可能会对其产生重大影响,如医疗保健、机器人和一些基础科学领域)展开深入研究,并介绍我们开展的创造性、公平性、包容性的工作,以帮助你更好地了解我们。

核心研究

我们团队关注的重点在于科研,并以此来提高我们的理解能力以及解决机器学习领域新问题的能力。以下是我们去年研究的几大主题。

AutoML

自动化机器学习的目标是推动技术发展,从而让计算机能够自动解决机器学习方面的新问题,而不需要人类机器学习专家来解决每个新问题。如果我们想拥有真正的智能系统,那么这将是我们需要具备的一项基本技术能力。我们提出了利用强化学习(reinforcement learning)和进化算法(evolutionary algorithms)来设计神经网络结构的新方法,并将这项工作推广到了ImageNet图像分类和检测领域的最新成果,展示了如何自动学习新的优化算法(optimization algorithms)和有效的激活函数(activation functions)。我们正与谷歌Cloud AI团队(Google Cloud AI team)展开积极合作,将此项技术提供给Google客户,同时不断向多个方面推进这项研究。

  利用神经网络搜索发现卷积结构

  利用AutoML发现的网络进行目标检测

语言理解与生成

另一项主要工作是开发新技术,以此来提高我们计算机系统理解和生成人类语音的能力,其中包括我们与谷歌语音团队(Google speech team)团队的合作,为端到端的语音识别技术进行了一系列改进,从而将谷歌语音识别系统产生的相对词错率降低了16%。这项研究的一个好处是,它需要将许不同的研究思路整合到一起。

  用于语音识别的Listen-Attend-Spell端到端模型的组件

我们还与谷歌的机器感知团队( Machine Perception team)的研究同事合作,开发了一种新的文本到语音(text-to-speech)生成方法(Tacotron 2),极大地提高了生成语音的质量。该模型的平均意见得分(MOS)为4.53,相比之下,专业录音的MOS值为4.58(你或许在有声读物中看到过),过去最好的计算机生成语音系统(computer-generated speech system)的MOS值为4.34。你可以在这里试听:https://google.github.io/tacotron/publications/tacotron2/index.html

  Tacotron 2的模型架构

机器学习的新算法和新方法

我们不断开发机器学习的新算法和新方法,包括Hinton提出的capsules的工作(在执行视觉任务时,明确寻找激活特征中的一致性,作为评估许多不同噪声假设的方法)、稀疏门控专家混合层(sparsely-gated mixtures of experts)(这使得超大模型仍然具有高计算效率)、超网络(hypernetworks)(用一个模型的权值生成另一个模型的权值)、新的multi-modal模型(在同一个模型上执行音频、视觉和文本输入的多个学习任务)、基于attention的机制(作为卷积模型和递归模型的替代)、symbolic和non-symbolic学习优化方法、通过离散变量进行反向传播的技术以及新型强化学习算法改进的研究。

计算机系统的机器学习

在计算机系统中,利用机器学习取代传统的启发方法,也是我们非常感兴趣的。我们展示了如何使用强化学习来做出布局决策(placement decision),以便将计算图形映射到一组比人类专家更优秀的计算机设备上。与谷歌科研(Google Research)的其他同事一样,我们在“学习索引结构的案例”一文中证明了神经网络比传统数据结构(如B-tress、哈希表和布隆过滤器(Bloom filter)速度更快、规模更小。我们相信,正如在NIPS的Machine Learning for Systems and Systems for Machine Learning研讨会上所述,对于在核心计算机系统中使用机器学习而言,我们还停留在表面。

  学习模型作为Index结构

隐私与安全

机器学习及其与安全和隐私的交叉领域,仍然是我们主要研究的重点。在一篇获得ICLR 2017最佳论文奖的论文中,我们展示了机器学习技术可以以一种提供不同隐私保证的方式应用。我们还在持续研究对抗样本的性质,包括在物理世界中展示对抗样本,以及如何在训练过程中大规模利用对抗样本,进而使模型相对于抗样本而言具有更强的鲁棒性。

了解机器学习系统

虽然我们在深度学习领域取得了许多令人印象深刻的成果,但重要的是弄清楚它的工作原理,以及它在何种状态下会停止工作。在另一篇获得ICLR 2017最佳论文奖的论文中,我们发现了,目前的机器学习理论框架无法解释深度学习方法中,那些令人印象深刻的成果。我们还发现,通过最优方法寻找最小的“平坦度”(flatness),并不像最初预想的那样,与良好的泛化紧密相关。为了更好地理解在深层构架下,训练是如何进行的,我们发表了一系列分析随机矩阵的论文,因为这是大多数训练方法的出发点。了解深度学习的另一个重要方法是更好地衡量它们的表现。在最近的一项研究中,我们证明了良好的实验设计以及严谨统计的重要性,比较了许多GAN方法,发现许多流行的生成模型增强并没有提高性能。我们希望这项研究,能够在其他研究人员进行相关实验时,提供一个可靠范例。

我们正在研发能够更好地解释机器学习系统的方法。并且在3月,我们与OpenAI、DeepMind、YC Research合作,宣布推出Distill,这是一本致力于帮助人类更好地理解机器学习的在线开放性科学期刊。其清楚地阐释了机器学习的感念,提供了优秀的交互式可视化工具,并获得了良好反响。在刊物发行的第一年,Distill发表了许多有启发性的文章,旨在了解各种机器学习技术的内部工作原理,我们期待在2018年可以取得更多进展。

  特征可视化

  如何有效地利用t-SNE

用于机器学习研究的开放式数据集

像MNIST、CIFAR-10、mageNet、SVHN和WMT这样的开放数据集,极大地推动了机器学习领域的发展。作为一个集体,我们团队与谷歌科研(Google Research)在过去一年左右的时间里,一直通过提供更大的标记数据集,积极地为开放式机器学习提供开放、有趣的新数据集,包括:

•YouTube-8M: 使用4,716个不同类别注释的700万YouTube视频(https://research.google.com/youtube8m/)

•YouTube-Bounding Boxes: 来自210,000个YouTube视频的500万个bounding boxes(https://research.googleblog.com/2017/02/advancing-research-on-video.html)

•Speech Commands数据集:包含数千个说话者说的短指令词(https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html)

•AudioSet:200万个10秒的YouTube视频剪辑,标记有527个不同的声音事件(https://research.googleblog.com/2017/03/announcing-audioset-dataset-for-audio.html)

•Atomic Visual Actions(AVA):57,000个视频剪辑中的21万个动作标签(https://research.googleblog.com/2017/10/announcing-ava-finely-labeled-video.html)

•Open Images:使用6000个类别标记的900万个创作共用许可的图像(https://research.googleblog.com/2016/09/introducing-open-images-dataset.html)

•Open Images with Boundign Boxes:600个类别的120万个bounding boxes(https://research.googleblog.com/2017/07/an-update-to-open-images-now-with.html)

  来自YouTube- Bounding Boxes数据集:以每秒1帧采样的视频片段,围绕相关项目成功标识边界框

TensorFlow和开源软件

  显示TensorFlow用户广泛分布的地图

纵观我们团队的历史,我们已经开发了一些工具,帮助我们进行机器学习研究,并在谷歌的许多产品中部署了机器学习系统。2015年11月,我们开放了第二代机器学习框架TensorFlow,希望机器学习社区能够从机器学习软件工具的投资中获益。2017年2月,我们发布了TensorFlow 1.0,2017年11月,我们发布了v1.4版本,增加了以下重要功能:用于交互式命令式编程的Eager execution,用于TensorFlow程序的优化编译器XLA,以及用于移动设备和嵌入式设备的轻量级解决方案TensorFlow Lite。预编译的TensorFlow二进制文件现在已经在180多个国家被下载了超过1000万次,GitHub上的源代码现在已经有超过1200个贡献者。

2017年2月,我们举办了首届TensorFlow开发者峰会,超过450多人参加了在山景城的活动,超过6500人观看了直播,包括在全球35多个国家和地区举办了超过85场的本地观看活动。所有的会谈都被记录了下来,主题包括TensorFlow的新功能、使用TensorFlow的技巧和低层TensorFlow抽象的细节。我们将在2018年3月30日在湾区举办第二届TensorFlow开发者峰会。

这个“石头剪刀布”的科学实验是TensorFlow的一个创新实践。 我们对在2017年出现的TensorFlow的各种使用途感到非常兴奋,其中包括自动化黄瓜分选、在航拍图像中寻找海牛、分选切块马铃薯以制作更安全的婴儿食品、识别皮肤癌、在新西兰的一个鸟类保护区解读鸟类鸣叫、并在坦桑尼亚识别病株

2017年11月,TensorFlow为开放源代码项目两周年,举办了庆祝活动。 能够看到一个充满活力的TensorFlow开发者和用户群体的出现,无疑是对我们最好的回报。TensorFlow是GitHub上排名第一的机器学习平台,也是GitHub上五大软件库之一,被许多不同规模的公司和机构所使用,Git Hub上有超过24500个与Tensor Flowl相关的独立软件库。现在,许多研究论文都与开放源码的TensorFlow实现一起出版,以配合研究结果,使社区能够更容易地理解每篇论文描述的使用方法,并重现或扩展工作。

TensorFlow也受益于其他Google研究团队的相关开源工作,其中,包括TensorFlow中生成对抗模型的轻量级库TF-GAN、TensorFlow Lattice、一组基于网格模型的估计器,以及TensorFlow Object Detection API。TensorFlow模型库随着模型的增多而持续扩张。

除了Tensor Flower之外,我们还发布了deeplearn.js,这是一个在浏览器中快速实现深度学习的API开源硬件(无需下载或安装任何东西)。deeplearn.js的主页有许多很好的例子,包括Teachable Machine、使用你的网络摄像进行机训练的计算机视觉模型、Performance RNN、一个基于实时神经网络的钢琴合成和性能演示。我们将在2018年开展工作,以便将TensorFlow模型直接部署到deeplearn.js环境中。

TPUs

 

 

Cloud TPUS提供高达180兆的机器学习加速

大约五年前,我们认识到,深度学习将极大改变我们所需的硬件类型。深度学习计算的计算量非常大,但是它们有两个特殊的性质:它们主要由密集的线性代数运算(矩阵倍数,向量运算等)组成,它们对精度的降低具有非常好的包容性。我们意识到我们可以利用这两个属性,来构建能够非常有效地运行神经网络计算的专用硬件。我们向谷歌平台(Google Platforms)团队提供了设计输入,他们设计并生产了第一代Tensor Processing Unit(TPU): 一种帮助深度学习模型进行加速推理的单芯片ASIC(推理使用已训练的神经网络,并且训练方式不同)。第一代TPU已经在我们的数据中心部署了三年,它被用于为谷歌搜索(Google Search)、谷歌翻译(Google Translate)、谷歌图片(Google Photos)、李世石和柯洁与Alphago的比赛,以及许多其他研究和产品用途。2017年6月,我们在ISCA 2017上发表了一篇论文,证实第一代TPU比与其同时期的GPU或CPU同类产品,处理速度快15倍- 30倍,性能/功耗节优化30 – 80倍。

 

 

Cloud TPU Pod可以提供高达11.5 petaflops的机器学习加速

 

 

在Image Net上进行RENET-50训练的实验表明,随着TPU设备数量的增加,实现了近乎完美的加速

推论是很重要的,但是加速训练过程是一个更重要的问题,也是一个更困难的问题。研究人员越快地尝试新想法,我们就能取得更多的突破。我们去年5月份在Google I / O上宣布的第二代TPU,是一个旨在加速训练和推理过程的一体化系统(定制ASIC芯片、电路板和互连),我们展示了一个设备配置:TPU Pod。我们宣布这些第二代设备将在谷歌云平台(Google Cloud Platform)上作为Cloud TPUs提供。我们还公布了TensorFlow研究云计划(TFRC),该计划旨在为顶级ML研究人员提供方案,这些人致力于与世界分享他们的工作,以便免费访问1000个Cloud TPUs集群。在2017年12月,我们展示了一项研究,证实我们可以在22分钟内,从TPU Pod上训练一个ResNet-50 ImageNet模型,而在一个典型的工作站上,这需要于几天或更长时间,相同时间里,TPU Pod上训练的模型准确度要高。我们认为以这种方式缩短研发周期,将极大提高谷歌的机器学习团队和所有使用Could TPUs的组织的工作效率。

本文地址:http://920cn.com/1586.html
版权声明:本文为原创文章,版权归 形大师 所有,欢迎分享本文,转载请保留出处!
广告
广告

 发表评论


表情