日播放量200亿，快手背后的AI异构计算技术解密

发布时间：2019-12-23 00:16:37 所属栏目：智能家居来源：网络整理

导读：从Gif工具一跃成为日活最高、最赚钱的短视频内容社区之一，快手背后有什么硬核技术？

同时，A10的网络接口也是GPU所没有的。从开发工具来说，传统的FPGA开发有一个非常大的问题，那就是开发周期非常长，现在英特尔推出了OpenCL的开发语言降低了开发难度，虽然还不能像软件一样去做硬件，但是对于有一定硬件背景设计人员来说，开发难度和周期可以明显降低。

钟辉说：“另外一个很有意思的是英特尔E3S10，这个大加速卡上面是E3的CPU，视频编解码能力非常强，因为它里面还有专门的GPU。然后，再加上S10的FPGA，就构成了一个比较齐全的异构加速卡。”

四、比CPU方案功耗效率提升8倍

钟辉接着介绍了快手基于OpenCL的开发案例：“我们在数据中心部署FPGA，面临‘上天’和‘入地’两个方面的挑战。”

“上天”是说FPGA是部署在云上的，因此快手团队首先要提高业务服务容量，充分利用FPGA来降低线上服务延时，同时像开发软件一样去交付硬件，从而实现高速的业务迭代；“入地”则谈的是部署，则要求成本可担负、具有稳定性且能耗更低，另外，还需要规模化、容器化部署，以解决资源的弹性部署。

日播放量200亿，快手背后的AI异构计算技术解密

以DRN（Deep Ranking Network）加速为例，当时商业化部门的排序网络在业务高峰期出现了抖动，需要采用异构方案来做加速。考虑到其中以计算为主的工作负载占到了CPU负载的50%，所以团队把计算这一块Off-loading到FPGA上去。

在硬件设计上，团队通过矩阵乘法将算法映射到FPGA的阵列结构上。但是，由于用了上千个乘法单元，运行达到几百兆，DDR根本无法满足。所以团队就采用了Systolic Array（脉动阵列）结构，把输入数据放到分布式的SRAM上，从而提供了这个应用要求的算力和带宽，同时降低了功耗。

日播放量200亿，快手背后的AI异构计算技术解密

钟辉说：“我们可以看到，相比于CPU方案，延迟降低了约1.5倍，最大吞吐大概提升了1.7倍左右，功耗有接近5倍的降低，从功耗效率来说提升了近8倍。这个我们已经在数据中心当中规模化的部署了，这是我们商业化的一个业务场景。从FPGA在数据中心落地的角度来讲是比较领先的。”

日播放量200亿，快手背后的AI异构计算技术解密

结语：社交媒体平台全面AI化，海量数据还靠算力

长期以来，社交媒体平台一直不算走在AI技术舞台的中心，但通过此次的实地探访，我们发现这家“国民级”短视频公司的AI技术似乎比我们从App表面上看到的要深入得多。

在快手AI应用背后，日均新增超1500万作品、千亿级的展示、越来越大的算法模型都为存储、传输和计算带来了巨大的挑战，对此，快手选择英特尔CPU、FPGA支持的“异构计算”器件来加以应对，从而实现了延迟、功耗效率的极大优化。

随着AI技术渗透到各行各业，社交媒体行业的AI化也深入到内容生成、内容分发、用户互动、引导消费等各个环节。计算力是AI发展的三大要素之一，很多企业已有成熟的算法和更充分的数据，这时利用异构计算等技术来提升算力也成为一大关键举措。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!