对话英特尔AI事业部副总裁:解读英特尔全面AI布局,下一代NNP-T明年公布
智东西(公众号:zhidxcom) 英特尔已成为一个超级AI硬件中枢。 如果说以前英特尔还只是AI推理领域的主宰者,那么随着其NNP-T芯片投向市场,数据中心训练芯片领域有望被搅起新的风云。 在最新财报电话会议上,英特尔预计2019年AI业务预计将超过35亿美元。而随着新一代专用神经网络处理器、Movidius Myriad视觉处理单元(VPU)和独立GPU陆续现身,不出意外的话,2020-2021年将成为英特尔全面展示AI能力的大秀场。 昨日,智东西同少数媒体采访了英特尔人工智能事业部副总裁兼英特尔人工智能平台与市场研究总经理Julie Choi(辛周妍)。在交流过程中,她不仅为更为系统介绍了英特尔的AI产品布局,解读了英特尔不同协处理器组合的应用侧重点,还透露了英特尔专用AI芯片为何蛰伏了三年才终于现身。 辛周妍相信,英特尔Nervana神经网络训练处理器将会颠覆现有市场格局。
▲英特尔人工智能事业部副总裁兼英特尔人工智能平台与市场研究总经理Julie Choi(辛周妍) 一、首秀专用AI芯片,打出全套AI硬件组合拳除了英特尔,似乎没有一家公司能已经集齐AI芯片主流架构。 目前AI领域呈现“CPU+GPU”、“CPU+FPGA”、“CPU+ASIC”三大流派。而英特尔已经集齐了这四大架构豪华套餐。 一方面,英特尔致力于提升CPU等现有产品,向其中注入更多AI能力的支持;另一方面,英特尔也持续加大在新架构方面的投入。 CPU毫无疑问是英特尔的拿手好戏,而随着英特尔陆续收购全球全球FPGA老二Altera(2015年)、计算机视觉创企Movidius(2016年)、神经网络处理器创企Nervana(2016年)、结构化ASIC厂商eASIC(2018年),它在数据中心、边缘计算的AI芯片布局雏形已然显现。 面向边缘,英特尔的Movidius以超低功耗高性能的特点切入大量低功耗便携设备。尤其是最新一代Movidius Myriad VPU,代号Keem Bay,速度上是英伟达TX2的4倍、华为海思昇腾310的1.25倍,每秒每TOPS的推理量是NVIDIA Xavier的4倍。 辛周妍说,Keem Bay一定会成为市场的领导者,因为英特尔客户急需单位功耗最高性能最佳表现的产品。
面向云端,在通用硬件方面,CPU仍是英特尔AI芯片的核心法宝。英特尔将AI能力注入第二代至强可扩展处理器,将高性能推理能力发挥到更高水准。其最高性能的至强Tiger Lake AP已经可以支持相当复杂的AI训练。 不仅如此,英特尔还面向数据中心提供GPU、FPGA、深度学习训练芯片NNP-T、深度学习推理芯片NNP-I等半定制化或定制化芯片。 近日英特尔宣布为高性能计算打造的7nm制程工艺Xe架构GPU,预计在2021年用在Aurora极光超算上。 英特尔今年在FPGA领域主要做了两件大事,一是推出全新品牌Agilex FPGA,集英特尔多种先进技术资源于一身;二是发布全球最大容量FPGA,第一次用EMIB技术将两个FPGA在逻辑和电气上实现整合。 而英特尔第一个Nervana神经网络处理器产品家族——NNP-T和NNP-I都在2019年量产。 NNP-T是一种新型AI模型训练方式,其特点在于可扩展能力,在ResNet50和BERT上扩展率高达95%,同时达到SOTA精度;NNP-I试生产芯片和全栈软件已被集成于1U高度的单RU机箱中,能以不到NVIDIA T4 2倍的加速数量,达到NVIDIA T4约3.7倍的计算密度。 不管是对于小规模群集,还是大规模POD超级计算机,Nervana NNP-T都可进行近乎线性且极具能效的扩展。NNP-T、NNP-I已面向百度、Facebook等客户,针对他们的AI需求做定制开发。
据辛周妍透露,NNP-T的迭代周期为2-3年,下一代版本的NNP-T预计将在2020年公布,英特尔还计划在2020-2021年分享NNP-T相关使用案例。 二、为什么英特尔NNP-T三年磨一剑?有意思的是,Nervana和Movidius分别在2016年8月和9月被英特尔宣布收购。 截至现在,第三代Movidius Myriad VPU已经问世,而初代Nervana训练和推理芯片却姗姗来迟。 那么为什么Nervana的研发推进如此缓慢呢? 据辛周妍回忆,三年前Nervana加入英特尔时只有48人的团队,而且仅有一个创意,没有任何硬件开发带进英特尔。平均而言,从一个创意到达到生产级的芯片,并且扩展到成千上万的客户,至少需三年的开发周期。 虽然英特尔的专用AI芯片来得偏晚,但面对市场上已经持续一段时间的云计算巨头造芯潮,英特尔并没有感到太大压力。 以和英特尔合作研发NNP-T的百度为例,像百度这样的许多大型云计算服务厂商都是大型复杂模型的开发者,需要用新硬件去训练复杂的模型。百度就尝试过多种架构的芯片,包括GPU、FPGA和他们自研的昆仑芯片等等。 那么为什么百度还会选择英特尔NNP-T?据辛周妍介绍,这是因为NNP-T提供了一种高效的分布式训练方式,能提供最高效的架构,对95%的大型复杂模型进行线性扩展,使得客户无需在数据中心联网性能上投入过多,而这是利用其它硬件架构难以实现的。 选择和百度飞桨来合作定制NNP-T,是因为百度希望扩展飞桨在市场中的采用率,而英特尔也预判飞桨未来将有更多应用,因此双方合力对飞桨进行一个硬件就绪的优化。
据百度AI系统架构师丁瑞全分享,百度X-Man 4.0与英特尔NNP-T配合,搭载了4个X-Man计算机32个NNP-T的系统已经运行起来,且效果符合预期,百度很快将在数据中心部署英特尔的产品。此前百度深度学习框架飞桨利用英特尔CPU,将ERINE模型高性能推理速度提升5倍。 当英特尔NNP-T加入AI芯片的竞争之中,它是否会颠覆现有市场格局? “是的。”辛周妍相当爽快地回答,Nervana芯片将替代GPU和FPGA承担部分AI处理任务。 三、AI将是英特尔接下来50年的战略核心英特尔之所以踏足AI领域,是以其客户需求为导向。 客户需要AI,所以英特尔需向客户提供支持AI的硬件和软件;客户需要新型硬件来支持分布式的训练,以及高密度的推理工作负载,所以英特尔打造了Nervana系列专用神经网络处理器。 AI对于英特尔的转型也是非常重要的一部分,辛周妍说,它也是英特尔接下来50年的战略核心部分。 总体来看,英特尔在提供AI芯片选型方案上的核心竞争力主要体现在两方面,一是各独立硬件产品性能足够高,二是提供全面的硬件选择。 没有哪个AI硬件能做到一个产品打天下,因此英特尔打造了不同类型的硬件,而具体如何做出选择则是根据实际需求,和客户一起去研究最佳选择。 FPGA则比较擅长要求低延迟高通量的推理运算,选择这一基础架构的客户通常看重FPGA的可编程性,希望能对硬件进行配置。比如微软就基于FPGA进行了大量的深度学习推理。 NNP-I、NNP-T主要面向超大规模的云服务提供商,Facebook即选择采用NNP-I部署更快、更高效的推理计算,并将他们对先进深度学习编译器Glow的支持扩展到NNP-I。 而独立GPU在开发早期目标应用于高性能计算的超算领域,也用在面向大型客户的AI领域。 辛周妍表示,NNP-T和英特尔独立GPU推出后,将给市场带来更多针对高密度神经网络训练的替代选择。 四、广度深度全面加持AI能力英特尔的AI产品组合,不仅在广度上堪称业界之最,在深度上也非常硬核。 有最先进深度学习训练需求的英特尔客户,要求性能每3.5个月提升一倍,而满足这一需求,仅靠计算的提升还不够。 而此前英特尔亮出的六大技术支柱,基本上展示了英特尔全面考虑计算、内存与存储、通信与互连、封装、软件的能力,确保在提升效率和可编程性的同时,能将深度学习扩展到数以千计节点。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |




