JeffDean发谷歌年度官方成绩单点出未来4大重要应战

2020-01-11 03:08:34 阅读：4988 作者：责任编辑NO。郑子龙0371

作为谷歌 AI 帝国的重要部分，谷歌强大的研究团队一直致力于通过研究和系统工程来推动人工智能领域的发展。

1 月 9 日，按照惯例，研究团队在其官方博客发表了 2019 年的年度总结，并展望 2020 年的工作重点。最新的官方总结由谷歌 AI 的领军人物之一、谷歌高级副总裁 Jeff Dean 代表整个团队执执笔。

图丨Jeff Dean （来源：谷歌）

在总结开头，Jeff Dean 便写道：“谷歌的研究工致力于解决重大的长期问题，特别是那些人们日常生活中最被困扰的问题。为了在 2019 年实现这一目标，我们进行了广泛的基础研究并取得了进展，将新的成果应用于医疗保健和机器人等新兴领域，开源了各种各样的代码，并继续与谷歌的产品团队合作，以创造出对用户有极大帮助的工具和服务。

在 2020 年开始之际回顾过去一年所做的研究工作，并展望未来几年的方向，这将是很有价值的。本着这种精神，我们发布了这篇博客文章。”

过去近 10 年，机器学习和计算机科学领域取得了举世瞩目的进步，研究人员有了可用的复杂计算设备。通过开发专用硬件，谷歌研究团队已经围绕机器学习方法重新设计了计算平台，从而能够解决慢慢的变大的问题。这改变了团队对数据中心以及低功耗移动环境的计算认识。而深度学习革命还将继续重塑团队如何看待计算和计算机的角度。同时，大量未解决的问题在等着他们。

展望已经开启的新一年，谷歌希望解决的问题有：

1、如何构建可以处理数百万个任务并能自动学习新任务的机器学习系统？现有的机器学习系统仍以单点突破单个任务为主。

2、如何在人工智能的重要领域推进最新技术，例如避免偏见，增加可解释性和可理解性，改善隐私和确保安全？

3、如何在重要的科学领域应用计算和机器学习取得进步？例如气候科学、医疗保健、生物信息学等。

4、如何确保机器学习和计算机科学所追求的思想和方向具有多样性？如何以最佳方式去支持不同背景的新人进入该领域？

（来源：谷歌）

另外，以下是文章列举的谷歌 2019 年的主要研究工作，经过基于原意的删减：

1、有道德地使用 AI

2018 年，我们发布了一套 AI 原则框架，通过该框架我们大家可以评估产品中机器学习等技术的研究和应用。在 2019 年 6 月，我们进行了框架发布以来为期一年的新工作，展示了如何在研究和产品开发生命周期等不同方面将这些原则付诸实践。

2019 年的几项重要工作包括：

●新的 AI 透明性研究成果“Model Cards for Model Reporting”，提出了为机器学习模型生成模型卡的想法，提供了有关如何解决可解释性问题的思路。

●“Exploring Neural Networks with Activation Atlases”展示了激活地图集如何帮助探索神经网络行为，并有助于机器学习模型的可解释性。

●引入了 TensorFlow Privacy，这是一个开放源代码库，能让开发人员更容易训练具有强大隐私保障的 AI 模型。

●发布了公平性指标（ Fairness Indicators）的测试版，以帮助 ML 从业人员认识机器学习模型的偏见或意外影响。

●KDD'19 收录的论文“Fairness in Recommendation Ranking through Pairwise Comparisons”，讨论了推荐系统中公平性。

●AIES'19 收录的论文“Putting Fairness Principles into Practice: Challenges, Metrics, and Improvements”，内容是关于机器学习研究中的公平性在生产分类系统中的应用案例研究。

●AIES'19 收录的论文“Counterfactual Fairness in Text Classification through Robustness”，是关于文本分类问题中反事实公平的论文，提出了一个确定互联网论坛评论是否有害的模型。

●发布了一个新的数据集，以帮助进行研究以识别DeepFake 。

（来源：谷歌）

2、AI 用于社会公益

在解决许多重要的社会问题方面，机器学习具有巨大的潜力。我们一直在几个主要领域中开展工作，并致力于使其他人能够运用他们的创造力和技能来解决此类问题。我们一直在使用机器学习、算力和更好的数据源以帮助更准确的洪水预报、全球野生动植物监测、人口流动和排放、青少年学习辅助、医疗和农业等。

（来源：谷歌）

3、AI 在其他领域的应用

●“An Interactive, Automated 3D Reconstruction of a Fly Brain”中，一种机器学习模型能够最终靠神经元映射并跟踪苍蝇大脑的完整结构。

（来源：谷歌）

●“Learning Better Simulation Methods for Partial Differential Equations”中，展示了机器学习如何帮助加速 PDE 计算，进而提升气候科学、流体力学、电磁学、热传导等基础计算问题。

●“Learning to Smell: Using Deep Learning to Predict the Olfactory Properties of Molecules”中，图神经网络（GNN）可拿来直接预测单一分子的气味描述符，无需引入任何人为规则。

●针对将化学与强化学习技术相结合提出了一套分子优化框架。

●机器学习还可以帮助我们在艺术与创作领域取得突破。

4、AI 辅助

机器学习可在个人层面上为我们的日常生活提供帮助。一般人很容易观察美丽的图像、聆听喜欢的歌曲或与人交谈，然而，超过十亿人无法与这样一个世界进行这些互动。机器学习技术能够最终靠将信号（视觉，听觉，语音）转换成其他信号，从而使更多人更好地与周围的世界交互，我们的案例有：

●Lookout，帮助盲人或视力低下的人识别有关其周围环境的信息。采用了与 Google Lens 类似的底层技术，该技术使您只需指向手机即可。

●Live Transcribe，帮助聋哑或者听力障碍人士更好地进行日常交流，即使对方使用的是他国语言。

●Euphonia 项目，能轻松实现定制化的语音到文本的转录。对于患有 ALS 和其他情况下会产生口齿不清或非标准语音的人，本研究提高了自动语音识别。

●与 Euphonia 项目类似，Parrotron 也使用端到端神经网络来帮助改善交流，但是研究重点是自动语音到语音的转换，而不是转录，它提供了一个语音接口方便访问。

●数以百万计的在线图像没有文字说明，但谷歌能够在一定程度上帮助获取图像描述，进而帮助盲人或弱视用户理解未标记的图像。当屏幕阅读器遇到无描述的图像或图形时，Chrome 可自动创建描述。

●Lens for Google Go，一款以音频形式读取可视文本的工具，能够在一定程度上帮助那些不完全识字的用户读懂单词。

（来源：谷歌）

5、手机智能

●Recorder 新型转录应用，可帮助用户索引音频信息、检索音频内容。

●改进谷歌翻译中的拍照翻译功能，可结合上下文进行翻译。

●发布 ARCore 的 Augmented Faces API，实时 AR 自表示工具成为可能。

●实时手部追踪功能，提供手势交互以及设备控制的新方式。

●改善了基于 RNN 的屏幕软键盘手写识别效果。

●发布基于智能手机摄像头实现的导航方法。

●谷歌研究人员与来自 24 个学术机构的学者们合作，共同撰写了一篇关于联邦学习的论文，重点介绍了过去几年中这项技术的进展以及当前仍然存在的开放性研究问题。

●计算影像上发布的 “multi-frame super resolution and mobile photography in very low-light conditions” 的论文。

（来源：谷歌）

6、健康

2018 年末，谷歌研究院健康团队、Deepmind Health 以及谷歌硬件部门专注健康应用的队伍（专注于与健康相关的应用）得以合并，组成 Google Health。相关亮点有：

●针对乳房 X 光片的深度学习模型能够在一定程度上帮助医生发现乳腺癌，这种疾病一生中影响着美国八分之一的女性，其准确性要比专家高，减少了假阳性和假阴性。

●利用深度学习模型进行皮肤疾病诊断，其准确率要高于初级医师，甚至相当或者略好于皮肤病理学家。

●通过 Google Health、DeepMind Health 以及美国退伍军人事务部（VA）专家的联手合作，机器学习模型被证明在预测急性肾操作（AKI）疾病的发作方面表现突出。提前两天发现问题，能够有效避免患者因此遭受的折磨。未来，医生有望提前 48 小时着手处理这类严重疾病。

●DeepMind Health 的同事与美国退伍军人事务部（VA）的共同工作表明，机器学习模型可以预测急性肾损伤的发作。

●将深度学习的应用扩展到了电子健康记录。

●展示了预测肺癌的重要一步，其中一种深度学习模型可用于检查单个 CT 扫描研究的结果，该研究在肺癌的早期发现方面与受过训练的放射线医师可以相提并论，甚至好于受过训练的放射线医师。

●与 Verily 和在印度、泰国的医疗合作伙伴一起，继续扩大和评估用于检测和预防眼疾的机器学习工具的部署。

●在增强现实显微镜上发表了用于癌症诊断的研究论文，病理学家可以在通过显微镜检查组织的同时，获得有关载玻片的实时反馈。

●为病理学家构建了以人为中心的相似图像搜索工具，能够最终靠允许检查相似病例来帮助他们做出更有效的诊断。

（来源：谷歌）

7、量子计算

2019 年，谷歌量子计算团队首次实现了“量子霸权”，即在执行某项任务时，量子计算机远强于经典计算机，两者的对比成绩是 200 秒对 1 万年对。

（来源：谷歌）

8、通用算法和理论

●VLDB 19 接收的“Cache-aware load balancing of data center applications”，利用图的均衡分区对 Web 搜索后端服务系统中的缓存进行指定，成功把闪存驱动器的查询吞吐量提高 48%，最终后端整体搜索吞吐量提高 40%。

●ICLR 19 接收的“A new dog learns old tricks: RL finds classic optimization algorithms”，展示了算法与机器学习之间的新联系，即强化学习可以为经典的在线优化组合问题找到特定算法。

●FOCS 19 的论文当中，为互连组件找到了几乎最好的大规模并行计算算法。

●KDD 19 和 NeurIPS 19 的论文中提出的聚类算法，算法能够自动识别各大城市群。

（来源：谷歌）

9、机器学习算法

●“evaluating the Unsupervised Learning of Disentangled Representations”论文中，探讨了会影响无监督学习中的表示形式的因素。

●在 “Predicting the Generalization Gap in Deep Neural Networks” 论文中，提出使用跨网络层的标准化边际分布作为泛化鸿沟的预测因子。

●在 “Learning to Generalize from Sparse and Underspecified Rewards” 论文中，研究了指定奖励函数以实现强化学习的方法。

10、AutoML

AutoML 使可以使机器学习的许多环节实现自动化，并且在某些类型上，与最佳的人类机器学习专家相比可以取得更好地结果。

●在 “In EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling” 论文中，神经架构搜索技术可以在计算机视觉问题中显著提升结果质量。

●在 “EfficientNet-EdgeTPU: Creating Accelerator-Optimized Neural Networks with AutoML” 论文中，神经架构搜索方法可以找到最适合特定硬件加速器的高效模型，从而生成可在移动设备上运行的高精度、低计算量模型。

●在 “Video Architecture Search” 论文中， AutoML 扩展到视频模型，可以找到可实现最佳结果的架构。

●开发出可用于处理表格数据的 AutoML 技术，帮助众多企业与组织在关系数据库内发掘出新的重要数据，并且可以基于此数据开发机器学习模型。

●在 “Exploring Weight Agnostic Neural Networks” 论文中，展示了如何在无需训练步骤的前提下，更新神经网络架构以调整评估模型中的权重。

●“Applying AutoML to Transformer Architectures”论文探索了如何为自然语言处理任务寻找最佳架构，在显著提高原始 Transformer 性能的同时降低计算成本。

●在 “SpecAugment: A New Data Augmentation Method for Automatic Speech Recognition” 论文中，证明自动学习数据增强方法可以扩展到语音识别模型。

（来源：谷歌）

11、自然语言处理

●在探索大规模多语言的神经机器翻译中，通过训练一个模型在 100 种语言之间进行翻译，显著提高翻译质量。

●在流端到端模型的大规模多语言语音识别中，将语音识别和语言模型结合在一起，并在多种语言上训练系统如何提高语音识别精度。

●在 “Translatotron: An End-to-End Speech-to-Speech Translation Model” 中，证明可以训练一个联合模型来很好地完成语音识别，翻译和文本转语音生成的任务。

●在用于语义检索的多语言通用句子编码器中，展示了如何组合许多不同的目标，以带来在语义检索方面更好的模型。

●在 “Robust Neural Machine Translation” 中，展示了如何使用对抗训练来提高语言翻译的质量。

12、机器感知

●Lens 中更细致的视觉理解，从而实现更优的视觉搜索。

●Nest Hub Max 中的智能相机功能，如快速手势、面部匹配和智能视频通话取景。

●实时和空间感知感知技术，通过使用 Lens 能帮助开拓周围的世界。

●更好的视频深度预测模型。

●使用时间周期一致性学习对视频进行更好的表现。

●学习文本、语音和视频在时间上一致的表示形式。

●可以通过对过去的观察来预测未来的视觉输入。

●可以更好地理解视频中的动作序列，使用户能够更好地回忆特殊的视频时刻。

13、机器人技术

机器学习在机器人控制中的应用是我们的重要研究领域。我们大家都认为，这是使机器人能够在复杂的现实世界环境中有效运行的重要工具。我们今年所做的一些工作包括：

（来源：谷歌）

●在 “Long-Range Robotic Navigation via Automated Reinforcement Learning” 中，通过自动强化学习与远程机器人导航结合，可使机器人能够在复杂的环境中发挥导航作用（例如 Google 办公大楼）。

●在 “PlaNet: A Deep Planning Network for Reinforcement Learning” 中，仅从图像像素就能有效地学习世界模型，以及利模型减少学习的次数。

●在 “Unifying Physics and Deep Learning with TossingBot” 中，机器人可以从环境中的实验中学习 “直观” 的物理，而不是预先为其编程的物理模型。

●在 “Soft Actor-Critic: Deep Reinforcement Learning for Robotics” 中，训练强化学习算法能够在一定程度上帮助机器人学习得更快，并且更加稳健地应对环境的变化。

●在 “Learning to Assemble and to Generalize from Self-Supervised Disassembly” 中，机器人通过学习以自我监督的方式对事物进行分解再组装。

●在 “ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots” 中，我们介绍了 ROBEL，一种低成本机器人学习的机器人基准，也是一个具有成本效益的机器人开源平台。

14、推进更广泛的开发者和研究者社区

开源不仅仅是代码：还涉及贡献者社区。加入开源社区是令人兴奋的一年。我们推出了 TensorFlow 2.0（迄今为止最大的 TensorFlow 版本），这使 ML 系统和应用程序的构建更加轻松。我们在 TensorFlow Lite 中增加了对快速移动 GPU 推理的支持，推出了 Teachable Machine 2.0，只需点击按钮就可训练机器学习模。我们还发布了 MLIR，一种机器学习编译器基础结构，帮助解决软件和硬件的问题，让构建 AI 应用程序更加容易。

15、数据集

在数据集上，为了帮助研究社区找到有趣的数据集，我们继续使用谷歌的数据集搜索来索引来不同组织的各种开放数据集。我们还认为，创建新的数据集以供社区探索和开发新技术，并确保负责任地共享开放数据也很重要。

今年，我们发布了许多跨许多不同领域的开放数据集：

●Open Images V5：对 Open Images 数据集的更新，这中间还包括针对 350 个类别中的 280 万个对象的分割蒙版。

● Natural questions：第一个使用自然查询并通过阅读整个页面而非从短段落中提取答案的数据集。

●Deepfake 检测数据：我们为 FaceForensics 基准测试贡献了一个大型的可视化 Deepfake 数据集。

● Google Research Football：一个新颖的强化学习环境，Agent 旨在掌握足球这一世界上最受欢迎的运动。

●Google-Landmarks-v2：超过 200 万个不同地标的 500 万张图像（是第一版的 2 倍）。

●YouTube-8M 细分：大规模分类和时间本地化数据集，这中间还包括经过人工验证的 YouTube-8M 视频的 5 秒细分级别的标签。

●AVA 口语动作：一种多模态的视听视频数据集，用于感知对话。

●PAWS 和 PAWS-X：为了帮助解释短语，两个数据集都包含句子对。

●自然语言对话数据集：CCPE 和 Taskmaster-1 都使用 Oz 向导平台，该平台将两个参与口语对话的人配对，以模拟与数字助手的人际对话。