席卷围棋界、开辟云端造芯,谷歌TPU到底有多强?
|
3、2018年:第三代TPU,边缘AI芯片Edge TPU 同样的研发节奏,2018年5月,谷歌不出意外地发布了第三代TPU,其各方面性能不仅实现了升级,也进一步扩展到更广泛的深度学习训练和推理领域。 谷歌表示,第三代TPU的性能均是第二代TPU的两倍,可实现420TFLOPs浮点运算,以及128GB的高带宽内存。同时,它还可部署在基于云计算的超级计算机TPU Pod中,其中的芯片数量是上一代的四倍。 与第二代TPU Pod的部署相比,第三代每个Pod的性能提高了8倍,且每个Pod最多拥有1024个芯片。
谷歌在2018年还发布了用于边缘推理的微型AI加速芯片——Edge TPU,专为企业机器学习任务而设计,用于IoT设备中。 Edge TPU同样是一款ASIC芯片。从应用上看,它与Cloud TPU相互补,用户能够先使用Cloud TPU对机器学习模型进行加速训练,再将训练好的模型放入相关设备中,进一步用Edge TPU进行机器学习推理。 据了解,Edge TPU能够让IoT设备以每秒30帧以上的速度,在高分辨率视频上运行多个先进的计算机视觉模型。
同时,谷歌还为Edge TPU推出了一套名为Cloud IoT Edge的软件平台,该平台拥有Edge IoT Core和Edge ML两大主要组件,能够帮助用户将在Google Cloud上构建和训练的机器学习模型,通过Edge TPU扩展到边缘设备中运行。 4、2019年:第二/三代TPU Pod 虽然这一年谷歌并未发布第四代TPU,却上演了另一个重头戏——发布第二代和第三代TPU Pod,可以配置超过1000颗TPU。 作为TPU的“升级版”,谷歌第二代TPU Pod能够容纳512个内核,实现每秒11.5千万亿次浮点运算;第三代TPU Pod速度则更快,可实现每秒超过100千万亿次浮点运算。 据悉,在相同配置(265块TPU)下训练ResNet-50模型时,第二代TPU Pod需要11.3分钟,而第三代TPU Pod只需7.1分钟。
三、架构创新,掀起云端造芯大浪潮谷歌TPU系列的出现,不仅突破了最初深度学习硬件执行的瓶颈,还在一定程度上撼动了英伟达、英特尔等传统GPU芯片巨头的地位。 自2015年以来,与AI芯片相关的研发逐渐成为整个芯片行业的热点,在云端的深度学习训练和推理领域,已然不是GPU——尤其是英伟达的独霸一方。 而谷歌TPU的诞生,也让越来越多的公司前赴后继地尝试设计GPU之外的专用AI芯片,以进一步实现更高效的性能。 从技术层面看,谷歌TPU的出现在架构创新上也为行业带来了几点思考[1]: 1、大规模片上内存 在谷歌看来,片外内存低是GPU能效比低的主要原因。 一些GPU由于片上内存较少,因此在运行过程中需要不断地去访问片外动态随机存取存储器(DRAM),从而在一定程度上浪费了不必要的能耗。 因此,谷歌在最初设计TPU时,总共设计了占总芯片面积37%的内存,其中包括24MB的局部内存、6MB的累加器内存,以及用于与主控处理器对接的内存。 2、用量化技术进行整数运算 一般来说,神经网络的预测并不需要32位或16位的浮点计算精度,因此它可以通过8位低精度运算的方法,在保证适当准确度的同时,对神经网络进行预测。 通过量化技术,神经网络预测的成本大大减少,并相应减少了内存的使用。例如,当研发人员将量化应用于流行的图像识别模型Inception时,芯片内存从91MB压缩到了23MB,约为其原始大小的四分之一。
3、可编程性 虽然谷歌TPU是ASIC芯片,但却与FPGA又有些类似,它具备一定的可编程性能力。 在谷歌看来,TPU的研发并非只用于运行一种神经网络模型。因此,谷歌选择采用了复杂指令集(CISC)作为TPU指令集的基础,能够较为侧重地运行更复杂的任务。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |





