席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

发布时间：2020-02-03 22:20:35 所属栏目：智能家居来源：网络整理

导读：溯源云端AI造芯起点，谷歌TPU背后的创新与破局

智东西（公众号：zhidxcom）
文 | 韦世玮

距离2016年那场世界著名的人机大战——AlphaGo对战李世石已经过去了四年。

短短四年间，整个科技圈宛如换了一方天地。

那一年，AlphaGo以4:1总分打败围棋世界冠军李世石，随后独战群雄，在与排名世界第一围棋的冠军柯洁对战胜利后宣布“隐退”，但其背后的那块芯片却开启了芯片产业的新篇章。

正是这翻天覆地的四年，AI芯片领域——尤其是云端AI芯片的市场规模一路扶摇直上，成为一众芯片巨头和新势力虎视眈眈之地。

据赛迪顾问在2019年8月发布的《中国人工智能芯片产业发展白皮书》，2018年全球云端AI芯片市场规模为62.1亿美元（约427.5亿人民币），预计这一数值将在2021年达到221.5亿美元（约1524.7亿人民币），巨大的市场将如火山爆发般呈现在众人眼前。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

在这片浩淼蓝海中，有一个角色则起到了划时代的重要意义，它就是谷歌TPU（Tensor Processing Unit，张量处理单元）。

自打与李世石、柯洁，以及中日韩数十位围棋高手的围棋对战中脱颖而出后，谷歌TPU曾一路狂飙突进，现在已演进到了第三代。它的出现，无疑打破了GPU曾一度称霸神经网络推理和训练市场的局面。

虽然，在2019年5月的谷歌I/O开发者大会上，万众瞩目的第四代TPU却意外缺席，取而代之的是以1000个TPUv3组成的TPUv3 Pod，以及边缘AI芯片Edge TPU。即便如此，它仍通过一定程度的对外开放，以及辅助谷歌内部服务器应用深刻地影响着云端AI芯片市场。

但从市场角度看，未来云端AI芯片巨大的发展潜力和市场机遇为谷歌TPU提供了肥沃的土壤；另一方面，紧迫的算力瓶颈和摩尔定律放缓等问题也越来越难以忽视。

这次，我们通过起底谷歌TPU的发展史，探究它是如何从最初的机器学习推理应用，发展为如今覆盖云端至边缘端的TPU生态？它的诞生为云端AI芯片市场带来了哪些重要变化？

一、始于算力瓶颈，首秀人类围棋界

何为TPU？

简单地说，它是谷歌在2015年6月的I/O开发者大会上推出的计算神经网络专用芯片，为优化自身的TensorFlow机器学习框架而打造，主要用于AlphaGo系统，以及谷歌地图、谷歌相册和谷歌翻译等应用中，进行搜索、图像、语音等模型和技术的处理。

区别于GPU，谷歌TPU是一种ASIC芯片方案。ASIC全称为Application-Specific Integrated Circuit（应用型专用集成电路），是一种专为某种特定应用需求而定制的芯片。但一般来说，ASIC芯片的开发不仅需要花费数年的时间，且研发成本也极高。

对于数据中心机房中AI工作负载的高算力需求，许多厂商更愿意继续采用现有的GPU集群或GPU+CPU异构计算解决方案，也甚少在ASIC领域冒险。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

那么，谷歌为何执意要开发一款ASIC架构的TPU？

实际上，谷歌在2006年起就产生了要为神经网络研发一款专用芯片的想法，而这一需求在2013年也开始变得愈发急迫。当时，谷歌提供的谷歌图像搜索、谷歌照片、谷歌云视觉API、谷歌翻译等多种产品和服务，都需要用到深度神经网络。

在庞大的应用规模下，谷歌内部意识到，这些夜以继日运行的数百万台服务器，它们内部快速增长的计算需求，使得数据中心的数量需要再翻一倍才能得到满足。然而，不管是从成本还是从算力上看，内部中心已不能简单地依靠GPU和CPU来维持。

在种种因素的推动下，不差钱的谷歌正式开始了TPU的研发之旅。

经过研发人员15个月的设计、验证和构建，TPU在2014年正式研发完成，并率先部署在谷歌内部的数据中心。

除了在内部秘密运行了一年外，谷歌TPU还在围棋界“大杀四方”，斩下一个个“人机大战”的神话。

据了解，在使用TPU之前，AlphaGo曾内置1202个CPU和176个GPU击败欧洲冠军范惠。直到2015年与李世石对战时，AlphaGo才开始使用TPU，而当时部署的TPU数量，只有48个。

这场对战胜利的“秘密武器”也在一年后的谷歌I/O开发者大会上被揭开神秘面纱，TPU正式面世。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

二、谷歌TPU的迭代、上云、发力终端

在面世后的短短两年，谷歌TPU已经迭代到了第三代，性能亦不断跃升。与此同时，随着研发的投入和广泛应用，谷歌也逐步推出可扩展云端超级计算机TPU Pod，以及Edge TPU。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

1、2016年：第一代TPU

虽是为神经网络而研发，但谷歌最初的第一代TPU仅用于深度学习推理。

从性能上看，第一代谷歌TPU采用了28nm工艺制造，功耗约为40W，主频700MHz。

研发之初，由于谷歌需要尽快将TPU部署到内部现有的服务器中，因此研发人员选择将处理器打包成外部加速卡，以插入SATA硬盘插槽后进行嵌入式安装。

同时，TPU通过PCIe Gen3 x16总线连接到主机，实现了12.5GB/s的有效带宽。

除了在AlphaGo上应用之外，谷歌第一代TPU还用于谷歌的搜索、翻译和相册等应用的机器学习模型中。

席卷围棋界、开辟云端造芯，谷歌TPU到底有多强？

▲Google第一代TPU（左），在谷歌数据中心中部署的TPU（右）

2、2017年：第二代TPU，引入Google Cloud

历经一年的更新、研发和迭代，谷歌在2017年5月发布了第二代TPU，并从这一代起能够用于机器学习模型的训练和推理。

与第一代相比，第二代TPU能够实现180TFLOPs浮点运算的计算能力，同时其高带宽内存（HBM）也提升到了64GB，解决了第一代TPU内存受带宽限制的问题。

在运行AI工作负载上，谷歌第二代TPU与同期的CPU、GPU相比，性能比传统的GPU高了15倍，比CPU高了30倍，每瓦性能亦提高了30至80倍。

也是从第二代TPU起，谷歌第二代TPU引入Google Cloud，应用在谷歌计算引擎（Google Compute Engine，简称GCE）中，也称为Cloud TPU，进一步优化谷歌搜索引擎、Gmail、YouTube和其他服务的运行。

与此同时，Cloud TPU通过TensorFlow进行编程，并与CPU、GPU及基础设施和服务结合，以根据用户应用需求构建和优化机器学习系统。

同时，随着谷歌第二代TPU的发布，新一轮的人机大战也再次揭开序幕。而这一代AlphaGo的芯片配置，仅用了4块TPUv2，便击败当时的世界围棋冠军柯洁。

实际上，谷歌除了推出第二代TPU外，还宣布计划研发可扩展云端超级计算机TPU Pods，通过新的计算机网络将64块Cloud TPU相结合，能够提供约11500万亿次浮点运算能力。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页