日播放量200亿,快手背后的AI异构计算技术解密
|
同时,A10的网络接口也是GPU所没有的。从开发工具来说,传统的FPGA开发有一个非常大的问题,那就是开发周期非常长,现在英特尔推出了OpenCL的开发语言降低了开发难度,虽然还不能像软件一样去做硬件,但是对于有一定硬件背景设计人员来说,开发难度和周期可以明显降低。 钟辉说:“另外一个很有意思的是英特尔E3S10,这个大加速卡上面是E3的CPU,视频编解码能力非常强,因为它里面还有专门的GPU。然后,再加上S10的FPGA,就构成了一个比较齐全的异构加速卡。” 四、比CPU方案功耗效率提升8倍 钟辉接着介绍了快手基于OpenCL的开发案例:“我们在数据中心部署FPGA,面临‘上天’和‘入地’两个方面的挑战。” “上天”是说FPGA是部署在云上的,因此快手团队首先要提高业务服务容量,充分利用FPGA来降低线上服务延时,同时像开发软件一样去交付硬件,从而实现高速的业务迭代;“入地”则谈的是部署,则要求成本可担负、具有稳定性且能耗更低,另外,还需要规模化、容器化部署,以解决资源的弹性部署。
以DRN(Deep Ranking Network)加速为例,当时商业化部门的排序网络在业务高峰期出现了抖动,需要采用异构方案来做加速。考虑到其中以计算为主的工作负载占到了CPU负载的50%,所以团队把计算这一块Off-loading到FPGA上去。 在硬件设计上,团队通过矩阵乘法将算法映射到FPGA的阵列结构上。但是,由于用了上千个乘法单元,运行达到几百兆,DDR根本无法满足。所以团队就采用了Systolic Array(脉动阵列)结构,把输入数据放到分布式的SRAM上,从而提供了这个应用要求的算力和带宽,同时降低了功耗。
钟辉说:“我们可以看到,相比于CPU方案,延迟降低了约1.5倍,最大吞吐大概提升了1.7倍左右,功耗有接近5倍的降低,从功耗效率来说提升了近8倍。这个我们已经在数据中心当中规模化的部署了,这是我们商业化的一个业务场景。从FPGA在数据中心落地的角度来讲是比较领先的。”
结语:社交媒体平台全面AI化,海量数据还靠算力 长期以来,社交媒体平台一直不算走在AI技术舞台的中心,但通过此次的实地探访,我们发现这家“国民级”短视频公司的AI技术似乎比我们从App表面上看到的要深入得多。 在快手AI应用背后,日均新增超1500万作品、千亿级的展示、越来越大的算法模型都为存储、传输和计算带来了巨大的挑战,对此,快手选择英特尔CPU、FPGA支持的“异构计算”器件来加以应对,从而实现了延迟、功耗效率的极大优化。 随着AI技术渗透到各行各业,社交媒体行业的AI化也深入到内容生成、内容分发、用户互动、引导消费等各个环节。计算力是AI发展的三大要素之一,很多企业已有成熟的算法和更充分的数据,这时利用异构计算等技术来提升算力也成为一大关键举措。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



