字节旗下火山引擎披露自研芯片 牵手英伟达缓解视频算力压力
近日,字节跳动旗下火山引擎视频云宣布其自研的视频编解码芯片已成功出片。与具备通用计算能力的CPU芯片相比,该自研芯片仅支持视频编解码任务,在特定场景具备更高的计算密度。
另外,此次火山与NVIDIA的合作主要是通过NVIDIA GPU进行算力方面的协调与调度,同时合作开源BMF(Babit MultiMedia Framework)多媒体处理框架,通过由CPU、GPU以及视频编解码专用芯片等组成的异构计算资源底层,支撑上层,提升复用与效率,降低网络视频服务的计算、存储及传输带宽成本。
(相关资料图)
牵手英伟达GPU布局框架平台
在架构关系上,BMF异构层包括了CPU、CUDA、FPGA,以及字节此次自研的ASIC算力。再之上分别是包括视频编解码在内的模块层、框架层,以及应用层。
视频自研芯片与BMF框架的诞生基于当下视频化逐渐普及的趋势。火山引擎总裁谭待表示,视频数据量呈爆发式增长,应用场景也在不断拓展。初心资本合伙人许旸洋认为视频正吞食一切是当下大的趋势,而视频化的形式将变得更加平民化,每个人都可以是视频创作者,视频大量出现倒逼底层技术升级。
NVIDIA开发与技术部门亚太区总经理李曦鹏对记者表示,此次火山引擎与NVIDIA的合作主要是指新的视频处理框架。过去的视频处理主要通过FFmpeg(一种命令行工具,用来对视频文件转换格式),后者方式主要包括调用C + + 的API,以及命令提示。但在视频复杂实时交互的编辑需求下,FFmpeg很难与现有AI应用连接起来。目前该框架主要面向开发者群体,会令过去使用FFmpeg等AI框架进行视频处理的开发者受益,也利于更多的创新诞生。
谈及此次与火山在BMF框架方面的合作,NVIDIA 高级计算专家王晓伟对记者表示,NVIDIA对框架进行了深度改造,增强框架的GPU亲和力,在框架层面提供更多的GPU加速能力,改进了BMF对FFmpeg CUDA filter的支持,添加GPU数据格式转换以及实现BMF与其他深度学习框架和SDK的数据兼容,这些特性可以方便开发者更快地在GPU上定制所需的BMF模块,从而快速响应业务需求,使用BMF搭建GPU流水线。
同时,NVIDIA还提供了许多精细优化的BMF模块,这些模块可以做到开箱即用,并且作为示例向开发者展示如何高效地开发 BMF GPU 模块。如BMF中的人脸识别示例使用 NVIDIA TensorRT(一种高性能深度学习推理优化器和运行时加速库)对模型推理进行加速,并且调用 CV-CUDA (NVIDIA开发的专用于构建加速型端到端计算机视觉和图像处理管道的开源项目)进行模型后处理,完整地展示了如何在 GPU 上使用 BMF 开发一个CV流水线及相关GPU模块。
王晓伟对记者表示,BMF能够提供简洁易用的跨语言接口、灵活的调度和扩展性,以模块化的方式动态扩展、管理和复用视频处理的原子能力;而现有的常用框架基本都存在着语言接口单一,调度扩展不灵活以及开发门槛高等问题,限制了 AI 时代下业务场景的进化。
通过硬件创新缓解算力瓶颈
此次火山并未具体透露自研视频芯片的具体代工厂等信息,字节跳动视频架构负责人火山引擎视频云架构技术总监王悦表示,此次推出火山引擎自研视频编码芯片,可以使一台芯片服务器的转码能力相当于百台CPU服务器的算力;压缩效率比行业主流硬件编码器提升30%+。据此将单个视频的计算、存储和传输的边际成本达到平衡。
另外,王悦表示,该芯片支持ASIC算力,是一种比较折中的算力资源,吞吐虽然差一些,但其优势是可擦写、更灵活,能够完成渐进迭代,也为火山ASIC方案提供了先行验证。
目前火山视频云的图片和动图转码服务都跑在FPGA上,部分点播、直播服务里也在使用FPGA。此外,王悦表示,火山还有ARM板卡阵列,这个方案本来是用来支持云游戏、云手机等场景需求而研发的,火山把编转码和处理引擎在ARM指令集上深度集成和优化之后,经过大规模实测发现这种算力资源在密度、成本方面相较X86服务器也有很大优势,因此也在点播场景里不断提升这种资源的使用量,做到与云游戏等场景的并池降本。王悦称目前最新一代板卡已经支持开源大模型llama2。
对视频芯片的自研投入早已在海内外大厂内进行,2016年,时任谷歌云计算副总裁的帕塔·兰加纳坦(Partha Ranganathan )向时任YouTube 副总裁 Scott Silver 申请视频芯片项目。2021年,YouTube 披露自研视频芯片Argos的进展。今年,Facebook 母公司Meta首度公开了其自研 AI 芯片的进展,可以支持其最近推出的广告设计和创作工具的生成式 AI技术。
2022年,腾讯公布自研视频转码芯片“沧海”于2022年3月5日流片。2022年8月,快手宣布研制出云端智能视频处理SoC(System on Chip)芯片SL200。火山引擎方面人士对记者表示,不同平台的视频自研芯片适用于各自不同的业务场景,火山自研视频芯片对内主要服务于抖音业务。
火山引擎视频云架构技术总监王悦认为,“视频编码每升级一代,质量码率减少50%,但大规模的视频数据量增长不止2倍,视频编码标准的迭代速度已经追赶不上视频数据量的增长速度,必须通过硬件创新来突破算力瓶颈”。