席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

发布时间：2020-02-03 22:20:35 所属栏目：智能家居来源：网络整理

导读：溯源云端AI造芯起点，谷歌TPU背后的创新与破局

3、2018年：第三代TPU，边缘AI芯片Edge TPU

同样的研发节奏，2018年5月，谷歌不出意外地发布了第三代TPU，其各方面性能不仅实现了升级，也进一步扩展到更广泛的深度学习训练和推理领域。

谷歌表示，第三代TPU的性能均是第二代TPU的两倍，可实现420TFLOPs浮点运算，以及128GB的高带宽内存。同时，它还可部署在基于云计算的超级计算机TPU Pod中，其中的芯片数量是上一代的四倍。

与第二代TPU Pod的部署相比，第三代每个Pod的性能提高了8倍，且每个Pod最多拥有1024个芯片。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

谷歌在2018年还发布了用于边缘推理的微型AI加速芯片——Edge TPU，专为企业机器学习任务而设计，用于IoT设备中。

Edge TPU同样是一款ASIC芯片。从应用上看，它与Cloud TPU相互补，用户能够先使用Cloud TPU对机器学习模型进行加速训练，再将训练好的模型放入相关设备中，进一步用Edge TPU进行机器学习推理。

据了解，Edge TPU能够让IoT设备以每秒30帧以上的速度，在高分辨率视频上运行多个先进的计算机视觉模型。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

同时，谷歌还为Edge TPU推出了一套名为Cloud IoT Edge的软件平台，该平台拥有Edge IoT Core和Edge ML两大主要组件，能够帮助用户将在Google Cloud上构建和训练的机器学习模型，通过Edge TPU扩展到边缘设备中运行。

4、2019年：第二/三代TPU Pod

虽然这一年谷歌并未发布第四代TPU，却上演了另一个重头戏——发布第二代和第三代TPU Pod，可以配置超过1000颗TPU。

作为TPU的“升级版”，谷歌第二代TPU Pod能够容纳512个内核，实现每秒11.5千万亿次浮点运算；第三代TPU Pod速度则更快，可实现每秒超过100千万亿次浮点运算。

据悉，在相同配置（265块TPU）下训练ResNet-50模型时，第二代TPU Pod需要11.3分钟，而第三代TPU Pod只需7.1分钟。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

三、架构创新，掀起云端造芯大浪潮

谷歌TPU系列的出现，不仅突破了最初深度学习硬件执行的瓶颈，还在一定程度上撼动了英伟达、英特尔等传统GPU芯片巨头的地位。

自2015年以来，与AI芯片相关的研发逐渐成为整个芯片行业的热点，在云端的深度学习训练和推理领域，已然不是GPU——尤其是英伟达的独霸一方。

而谷歌TPU的诞生，也让越来越多的公司前赴后继地尝试设计GPU之外的专用AI芯片，以进一步实现更高效的性能。

从技术层面看，谷歌TPU的出现在架构创新上也为行业带来了几点思考[1]：

1、大规模片上内存

在谷歌看来，片外内存低是GPU能效比低的主要原因。

一些GPU由于片上内存较少，因此在运行过程中需要不断地去访问片外动态随机存取存储器（DRAM），从而在一定程度上浪费了不必要的能耗。

因此，谷歌在最初设计TPU时，总共设计了占总芯片面积37%的内存，其中包括24MB的局部内存、6MB的累加器内存，以及用于与主控处理器对接的内存。

2、用量化技术进行整数运算

一般来说，神经网络的预测并不需要32位或16位的浮点计算精度，因此它可以通过8位低精度运算的方法，在保证适当准确度的同时，对神经网络进行预测。

通过量化技术，神经网络预测的成本大大减少，并相应减少了内存的使用。例如，当研发人员将量化应用于流行的图像识别模型Inception时，芯片内存从91MB压缩到了23MB，约为其原始大小的四分之一。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

3、可编程性

虽然谷歌TPU是ASIC芯片，但却与FPGA又有些类似，它具备一定的可编程性能力。

在谷歌看来，TPU的研发并非只用于运行一种神经网络模型。因此，谷歌选择采用了复杂指令集（CISC）作为TPU指令集的基础，能够较为侧重地运行更复杂的任务。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!