黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈
智东西(公众号:zhidxcom) 智东西12月18日苏州报道,又到了一年一度的NVIDIA GTC China大会,这次,NVIDIA创始人兼CEO黄仁勋将焦点放在四大主题:人工智能(AI)、汽车、游戏和HPC。 黄仁勋说,这是迄今为止最大规模的GTC China,与会人数达到6100,较三年前的2400人增加250%。
黄仁勋宣布一系列NVIDIA新品及合作进展,核心内容如下: 1、百度、阿里使用NVIDIA AI平台做推荐系统; 2、推出第七代推理优化软件TensorRT 7,进一步优化实时会话式AI,T4 GPU上推理延迟是CPU的1/10; 3、NVIDIA AI推理平台在全世界范围内得到了广泛的应用; 4、推出软件定义的AV平台、新一代自动驾驶和机器人SoC Orin,算力达200TOPS,计划于2022年开始投产; 5、向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络,在NGC上推出NVIDIA DRIVE预训练模型; 6、滴滴将在数据中心使用NVIDIA GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力; 7、推出全新版本NVIDIA ISAAC软件开发套件SDK,为机器人提供更新AI感知和仿真功能; 8、宣布六款支持RTX技术的游戏; 9、腾讯与NVIDIA合作推出START云游戏服务,在中国将电脑游戏体验引入云端; 10、宣布全亚洲最大云渲染平台瑞云云渲染平台将配备NVIDIA RTX GPU,首批5000片RTX GPU将在2020年上线; 11、发布面向建筑行业(AEC)的Omniverse开放式3D设计协作平台; 12、面向基因组测序,黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。 一、AI:入驻百度阿里推荐系统,推出新一代TensorRT软件自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU赢得ImageNet竞赛以来,NVIDIA在5年内将训练性能提升300倍。 借助Volta、新Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink和DGX系统组合,NVIDIA正助力更多AI研究。
AI将从云扩展到边缘,NVIDIA正为以下每种用例分别打造一个平台:用于训练的DGX,用于超大规模云的HGX,用于边缘的EGX和用于自治系统的AGX。 1、百度、阿里推荐系统采用NVIDIA GPU 黄仁勋说,互联网一个最重要的机器学习模型是推荐系统模型。 没有推荐系统,人们就无法从上亿次网页检索、几十亿淘宝商品、几十亿抖音短视频、各种网络新闻、推文和照片中找到自己需要的内容。 深度学习可实现自动特征学习,支持非结构化内容数据,通过加速缩短延迟并提高吞吐率。 总体来看,做推荐系统面临两大挑战:海量数据带来的复杂模型处理任务,以及让用户立即看到推荐结果的实时性要求。
针对这一问题,百度提出AI-Box解决方案来训练高级的大规模推荐系统。 百度AI-Box是Wide and Deep结构,采用NVIDIA AI平台,基于NVIDIA GPU训练TB级数据,速度比CPU更快的同时,训练成本仅有CPU的1/10,且支持更大规模的模型训练。
同样,阿里做的推荐系统也选用了NVIDIA AI平台。 今年“双十一”当日,阿里的销售额超过了380亿美元的商品,电商网站上共列出约20亿类商品,有5亿用户在购物,一天销售额达2684亿,每秒几十亿次推荐请求。 如果一位用户花1秒看1个产品,那么看完所有商品要花32年的时间。 对此,阿里使用NVIDIA T4 GPU来训练推荐系统,这使得每当用户点击一个商品,就会看到其他相关推荐商品。 原先使用CPU速度较慢,仅3QPS,而NVIDIA GPU将速度提升至780QPS。 2、推出第七代推理优化软件TensorRT 现场,黄仁勋宣布正式推出第七代推理优化编译器TensorRT 7,支持RNN、Transformer和CNN。
TensorRT是NVIDIA针对神经网络推理阶段提供的加速软件,它能通过提供优化的AI模型来大幅提升性能。 去年在GTC China大会上发布的TensorRT 5仅支持CNN,只支持30种变换,而TensorRT 7面向Transformer和RNN做了大量优化,能以更少内存实现高效运算,并支持1000多种计算变换和优化。 TensorRT 7能融合水平和垂直方向的运算,可为开发者设计的大量RNN配置自动生成代码,逐点融合LSTM单元,甚至可跨多个时间步长进行融合,并尽可能做自动低精度推理。 此外,NVIDIA在TensorRT 7中引入一个内核生成功能,用任何RNN可生成一个优化的内核。
会话式AI是TensorRT 7强大功能的典型代表。 其功能非常复杂,比如一个用户用英文说了一句话,要把它翻译成中文,这个过程需要现将英文口语转化成文字,理解这段文字,然后转化成想要的语言,再通过语音合成将这段文字转化成语音。 一套端到端会话式AI的流程可能由二三十种模型组成,用到CNN、RNN、Transformer、自编码器、NLP等多种模型结构。 推理会话式AI,CPU的推理延迟是3秒,现在使用TensorRT 7在T4 GPU上推理仅0.3s就完成,比CPU快10倍。 3、NVIDIA AI平台得到广泛的应用 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |






