黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

发布时间：2019-12-23 00:12:47 所属栏目：智能家居来源：网络整理

导读：黄教主抛12项硬核更新！聚焦AI、自动驾驶、游戏、HPC四大方向。

智东西（公众号：zhidxcom）
文 | 心缘

智东西12月18日苏州报道，又到了一年一度的NVIDIA GTC China大会，这次，NVIDIA创始人兼CEO黄仁勋将焦点放在四大主题：人工智能（AI）、汽车、游戏和HPC。

黄仁勋说，这是迄今为止最大规模的GTC China，与会人数达到6100，较三年前的2400人增加250%。

黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

黄仁勋宣布一系列NVIDIA新品及合作进展，核心内容如下：

1、百度、阿里使用NVIDIA AI平台做推荐系统；

2、推出第七代推理优化软件TensorRT 7，进一步优化实时会话式AI，T4 GPU上推理延迟是CPU的1/10；

3、NVIDIA AI推理平台在全世界范围内得到了广泛的应用；

4、推出软件定义的AV平台、新一代自动驾驶和机器人SoC Orin，算力达200TOPS，计划于2022年开始投产；

5、向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络，在NGC上推出NVIDIA DRIVE预训练模型；

6、滴滴将在数据中心使用NVIDIA GPU训练机器学习算法，并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力；

7、推出全新版本NVIDIA ISAAC软件开发套件SDK，为机器人提供更新AI感知和仿真功能；

8、宣布六款支持RTX技术的游戏；

9、腾讯与NVIDIA合作推出START云游戏服务，在中国将电脑游戏体验引入云端；

10、宣布全亚洲最大云渲染平台瑞云云渲染平台将配备NVIDIA RTX GPU，首批5000片RTX GPU将在2020年上线；

11、发布面向建筑行业（AEC）的Omniverse开放式3D设计协作平台；

12、面向基因组测序，黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。

一、AI：入驻百度阿里推荐系统，推出新一代TensorRT软件

自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU赢得ImageNet竞赛以来，NVIDIA在5年内将训练性能提升300倍。

借助Volta、新Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink和DGX系统组合，NVIDIA正助力更多AI研究。

黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

AI将从云扩展到边缘，NVIDIA正为以下每种用例分别打造一个平台：用于训练的DGX，用于超大规模云的HGX，用于边缘的EGX和用于自治系统的AGX。

1、百度、阿里推荐系统采用NVIDIA GPU

黄仁勋说，互联网一个最重要的机器学习模型是推荐系统模型。

没有推荐系统，人们就无法从上亿次网页检索、几十亿淘宝商品、几十亿抖音短视频、各种网络新闻、推文和照片中找到自己需要的内容。

深度学习可实现自动特征学习，支持非结构化内容数据，通过加速缩短延迟并提高吞吐率。

总体来看，做推荐系统面临两大挑战：海量数据带来的复杂模型处理任务，以及让用户立即看到推荐结果的实时性要求。

黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

针对这一问题，百度提出AI-Box解决方案来训练高级的大规模推荐系统。

百度AI-Box是Wide and Deep结构，采用NVIDIA AI平台，基于NVIDIA GPU训练TB级数据，速度比CPU更快的同时，训练成本仅有CPU的1/10，且支持更大规模的模型训练。

同样，阿里做的推荐系统也选用了NVIDIA AI平台。

今年“双十一”当日，阿里的销售额超过了380亿美元的商品，电商网站上共列出约20亿类商品，有5亿用户在购物，一天销售额达2684亿，每秒几十亿次推荐请求。

如果一位用户花1秒看1个产品，那么看完所有商品要花32年的时间。

对此，阿里使用NVIDIA T4 GPU来训练推荐系统，这使得每当用户点击一个商品，就会看到其他相关推荐商品。

原先使用CPU速度较慢，仅3QPS，而NVIDIA GPU将速度提升至780QPS。

2、推出第七代推理优化软件TensorRT

现场，黄仁勋宣布正式推出第七代推理优化编译器TensorRT 7，支持RNN、Transformer和CNN。

黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

TensorRT是NVIDIA针对神经网络推理阶段提供的加速软件，它能通过提供优化的AI模型来大幅提升性能。

去年在GTC China大会上发布的TensorRT 5仅支持CNN，只支持30种变换，而TensorRT 7面向Transformer和RNN做了大量优化，能以更少内存实现高效运算，并支持1000多种计算变换和优化。

TensorRT 7能融合水平和垂直方向的运算，可为开发者设计的大量RNN配置自动生成代码，逐点融合LSTM单元，甚至可跨多个时间步长进行融合，并尽可能做自动低精度推理。

此外，NVIDIA在TensorRT 7中引入一个内核生成功能，用任何RNN可生成一个优化的内核。

黄仁勋推新自动驾驶芯片！性能飙升7倍，牵手BAT滴滴大秀中国朋友圈

会话式AI是TensorRT 7强大功能的典型代表。

其功能非常复杂，比如一个用户用英文说了一句话，要把它翻译成中文，这个过程需要现将英文口语转化成文字，理解这段文字，然后转化成想要的语言，再通过语音合成将这段文字转化成语音。

一套端到端会话式AI的流程可能由二三十种模型组成，用到CNN、RNN、Transformer、自编码器、NLP等多种模型结构。

推理会话式AI，CPU的推理延迟是3秒，现在使用TensorRT 7在T4 GPU上推理仅0.3s就完成，比CPU快10倍。

3、NVIDIA AI平台得到广泛的应用

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页