2019年谷歌AI的“成绩单”咋样?
|
对于教育方面,Google做了带语音识别技术的Bolo应用,指导小朋友们学英语。这个应用部署在了本地,可以离线运行,它已经帮助80万印度儿童识字,小朋友们累计读了了10亿单词,在印度200个村子的试点中,64%的小朋友阅读能力有所提高。
仿佛是一个Google版的英语流利说。 相关博客: https://www.blog.google/technology/ai/bolo-literacy/ 除了识字,还有数学、物理等更复杂的学习科目。Google做了Socratic应用来帮高中生学数学。 此外,为了让AI在公益方面发挥更大的作用,Google举办了AI Impact Challenge,收集到了来自119个国家超过2600个提案。 最终20个能解决重大社会问题和环境问题的提案脱颖而出,Google在这些提案项目上投入了2500万美元(超过1.7亿人民币)的资助,做出了一些成绩,包括: 无国界医生组织(MSF)创建了一个免费手机App,用图像识别工具帮助条件不好的地方的诊所医生分析抗菌图像,为给病人用什么药提供建议,这个项目已经在约旦试点。 无国界医生组织的项目报道: https://www.doctorswithoutborders.org/what-we-do/news-stories/news/msf-receives-google-grant-develop-new-free-smartphone-app-help 世界上有十亿人靠小型农场过活,但一旦发生病虫害,就会断了他们的活路。 因此,一家名叫Wadhwani AI的NPO,用图像分类模型来辨别农场中的害虫,并对于应该喷哪种农药、何时喷药给出建议,提高了农作物的产量。 热带雨林的非法砍伐是气候变化的主要影响因素,一个名叫“雨林连接(Rainforest Connection)”的组织用深度学习进行生物声学检测,拿一些旧手机就可以跟踪雨林的健康状况,检测其中的威胁。
△ Google资助的20个公益项目 开发者工具打造和造福研究者社区 作为全球第一AI大厂,Google也是开源先锋,不断为社区发光发热,一方面是集中在TensorFlow上。 Jeff Dean说,因为TensorFlow 2.0发布,对于开源社区来说,过去一年是激动人心的一年。 这是TensorFlow发布以来,第一次重大升级,使构建ML系统和应用程序比以往任何时候都要容易。 量子位相关报道如下: GoogleTF2.0凌晨发布!“改变一切,力压PyTorch”
在TensorFlow Lite中,他们增加了对快速移动GPU推理的支持;并发布了Teachable Machine 2.0,不需要写代码,只需一个按钮就能训练一个机器学习模型。 量子位相关报道如下: TensorFlow Lite发布重大更新!支持移动GPU、推断速度提升4-6倍 还有MLIR,一个开源的机器学习编译器基础工具,解决了日益增长的软件和硬件碎片的复杂性,使构建人工智能应用程序的更容易。 在NeurIPS 2019上,他们展示了如何使用开源的高性能机器学习研究系统JAX: https://nips.cc/Conferences/2019 此外,他们也开源了用于构建感知和多模态应用ML pipelines的框架MediaPipe: https://github.com/google/mediapipe
以及高效浮点神经网络推理操作符库XNNPACK: https://github.com/google/XNNPACK 当然,Google还放出了一些羊毛给大家薅。 Jeff Dean介绍称,截止2019年底,他们让全球超过1500名研究人员通过 TensorFlow Research Cloud 免费访问了Cloud TPU,他们在 Coursera 上的入门课程已经有超过了10万名学生等等。 同时,他也介绍了一些“暖心”案例,比如在 TensorFlow 的帮助下,一名大学生发现了两颗新的行星,并建立了一种方法来帮助其他人发现更多的行星。 还有大学生们使用 TensorFlow 来识别洛杉矶的坑洞和危险的道路裂缝等等。 另一方面是在开放数据集上。 开放11个数据集 2018年发布了数据集搜索引擎后,Google今年依旧在这方面努力,并尽自己的努力,给这个搜索引擎添砖加瓦。
过去一年,Google在各个领域开放了11个数据集,下面开始资源大放送,请收好~ Open Images V5,在注释集中加入分割掩码(segmentation masks),样本规模达到280万,横跨350个类别,量子位报道: 280万样本!Google开放史上最大分割掩码数据集,开启新一轮挑战赛 “自然问题”数据集,第一个使用自然发生的查询,并通过阅读整个页面找到答案的数据集,而不是从一小段中提取答案,30万对问答,BERT都达不到70分,量子位报道: Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分 用于检测deepfakes的数据集: https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html 足球模拟环境Google Research Football,智能体可以在这个宛若FIFA的世界里自由踢球,学到更多踢球技巧,量子位报道: Google造了个虚拟足球场,让AI像打FIFA一样做强化学习训练丨开源有API
地标数据集Google-Landmarks-v2:包括500万张图片,地标数量达到20万,量子位报道: 500万张图片,20万处地标风景,Google又放出大型数据集 YouTube-8M Segments数据集,一个大规模的分类和时间定位数据集,包括YouTube-8M视频5秒片段级别的人工验证标签: https://ai.googleblog.com/2019/06/announcing-youtube-8m-segments-dataset.html AVA Spoken Activity数据集,一个多模态音频+视觉视频的感知对话数据集: https://research.google.com/ava/ PAWS和PAWS-X:用于机器翻译,两个数据集都由高度结构化的句子对组成,并且相互之间的词汇重叠度很高,其中约占一半的句子具有对应的多语言释译: https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html
让两个人进行对话,通过数字助手模拟人类的对话的自然语言对话数据集: https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html Visual Task Adaptation Benchmark:这是对标 GLUE、ImageNet,Google推出的视觉任务适应性基准。 有助于用户更好地理解哪些哪些视觉表征可以泛化到更多其他的新任务上,从而减少所有视觉任务上的数据需求: 最大的面向任务的对话的公开数据库——模式引导对话数据集,有跨越17个域的超过18000个对话: 顶会研究和Google研究的全球扩张 根据Google官方统计,Googler在过去一年发表了754篇论文。 Jeff Dean也列举了一些顶会战绩: CVPR有40多篇论文,ICML有100多篇论文,ICLR有60多篇论文,ACL有40多篇论文,ICCV有40多篇论文,NeurIPS有超过120篇等等。
他们还在Google举办了15个独立的研讨会,主题从改善全球洪水预警,到如何使用机器学习来建立更好地为残疾人服务的系统,到加速开发用于量子处理器(NISQ)的算法、应用程序和工具等等。 并通过年度博士奖学金项目在全球资助了50多名博士生,也对创业公司提供了支持等等。 同样,2019年Google研究地点依旧在全球扩张,在班加罗尔开设了一个研究办公室。同时,Jeff Dean也发出了招聘需求:如果有兴趣,赶紧到碗里来~ 人工智能伦理 和往年一样,这篇报道最开篇,其实Jeff首先谈到的就是Google在人工智能伦理上的工作。 这也是Google在AI实践和道德伦理、技术向善方面的明确宣示。 2018年,Google发布了AI 七原则并围绕这些原则展开应用实践。2019年6月,Google交出成绩单,展示了如何在研究和产品开发中,将这些原则付诸实施。 报告链接: https://www.blog.google/technology/ai/responsible-ai-principles/ Jeff Dean说,由于这些原则基本覆盖人工智能和机器学习研究中最活跃的领域,比如机器学习系统中的偏见、安全、公平、可靠性、透明度和隐私等等。
因此Google的目标是将这些领域的技术应用到工作中,并不断进行研究,以继续推进相关技术发展。 一方面,Google还在KDD’19、AIES 19等学术会议上发表了多篇论文,来探讨机器学习模型的公平性和可解释性。 比如,对Activation Atlases如何帮助探索神经网络行为,以及如何帮助机器学习模型的可解释性进行研究。 相关链接: Exploring Neural Networks with Activation Atlases https://ai.googleblog.com/2019/03/exploring-neural-networks.html 另一方面,Google的努力也都落到了实处,切实的拿出了的产品。 比如,发布了TensorFlow Privacy,来帮助训练保证隐私的机器学习模型。 相关链接: Introducing TensorFlow Privacy: Learning with Differential Privacy for Training Data https://blog.tensorflow.org/2019/03/introducing-tensorflow-privacy-learning.html 此外,Google还发布了一个新的数据集,以帮助研究识别deepfakes。 相关链接: Contributing Data to Deepfake Detection Research https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html
展望2020年及以后 最后,Jeff也站在过去10年的发展历程上,对2020年及以后的研究动向进行了展望。 他说,在过去的十年里,机器学习和计算机科学领域取得了显著的进步,我们现在让计算机比以往任何时候都更有能力去看、听和理解语言。 在我们的口袋里,有了复杂的计算设备,可以利用这些能力,更好地帮助我们完成日常生活中的许多任务。 我们围绕这些机器学习方法,通过开发专门的硬件,重新设计了我们的计算平台,使我们能够处理更大的问题。 这些这改变了我们对数据中心中的计算设备的看法,而深度学习革命,将继续重塑我们对计算和计算机的看法。 与此同时,他也指出,还有大量未解决的问题。这也是Google在2020年及以后的研究方向: (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |










