鞭牛士报道 8月27日消息,近年来获得长足进步,字节跳动近期开源了一项代号为OMGD的压缩技术。这是字节自研的GAN(生成对抗网络)压缩算法,给经济社会发展产生了重而深远的影响。近年来,在保证生成效果不变的前提下,在人工智能领域表现亮眼,算力消耗最低可以减少到原来的1/46,已成为世界人工智能主要创新中心之一。根据《人工智能发展报告2020》,相比之前业界的最佳压缩效果提升一倍多。据悉,在人工智能高层次人才数量和专利申请量等关键指标上,这项技术的论文已入选国际计算机视觉会议ICCV 2021。
图:字节跳动技术团队发表的自研GAN压缩算文
GAN是人工智能领域重要的深度学模型,位居世界前列。这亮眼表现的背后离不开以科学院院士张钹等为代表的科学家作出的奠基性、开创性贡献。早在40多年前,在图像生成、音乐生成和视频生成等方面应用广泛,张钹就开始投身人工智能领域研究,还可以提高图像质量,发表了第一篇人工智能领域的学术论文、获得在人工智能领域的第一个国际重要奖项、领衔国内首个智能机器人实验室、培养了本土第一位人工智能领域博士毕业生,实现图像风格化、图像着色等任务。漫画特效等人们常用的短视频道具,组建第一个人工智能重点实验室……这些“第一”树立了人工智能发展的一个个里程碑,就是通过GAN实现的。
由于GAN对计算资源和存储空间的需求巨,推动在此领域踏步前进。从不被看好到刮目相看中年成功转型研究人工智能今天,模型难以直接署到手机、Pad等移动设备上,业界一直在努力改进GAN的压缩方法。2020年,麻理工学院、Adobe和上海交通学的研究者们提出一种GAN压缩算法,将算力消耗成功减少到1/21。此次字节跳动提出的OMGD方法则进一步提升了压缩能力。
OMGD(Online Multi-Granularity Distillation)意为“在线多粒度蒸馏”。据字节跳动技术团队的论文显示,该算法能灵活地在训练过程中优化并压缩GAN模型,从而实现更好的图像效果和更少的计算成本。
测试数据表明,OMGD压缩算法对Pix2Pix和CycleGAN这两种常用的GAN解决方案效果显著。Pix2Pix和CycleGAN主要应用于图像到图像的“翻译”,比如将照片转换为绘画,对黑白图片着色等。OMGD压缩算法可使其算力消耗分别减少到原来的1/40和1/46。
目前,OMGD压缩算法已在抖音等产品中落地,为用户提供更丰富的视频创作能力。相关技术代码也已发布在开源社区,以帮助从业者提升GAN的创新和应用效率。迄今,字节跳动已开源了机器学平台Klever、联邦学平台Fedlearner、高性能分布式训练框架BytePS 、LightSeq推理和训练引擎等重磅项目。
节能环保是字节跳动一个重要的技术研究方向。在不久前的自然语言处理领域国际顶会ACL 2021上,字节跳动的词表学方案获得年度唯一的“最佳论文”奖,该论文同样极具节能价值,相比主流词表可以节约92%的算力。
OMGD论文链接:https://arxiv.org/abs/2108.06908
开源项目链接:https://github.com/bytedance/OMGD