世界知识产权日,快手展示音视频创新“绝活”

2021-04-26 13:09:54 作者: 世界知识产权

快手是一个用视频记录和分享生活的平台,优化视频的生产、编辑和消费体验,是快手研发工程师们的工作重心。其中,特效技术可以在普通拍照画面中增加各种新奇有趣的元素,衍生出各种奇思异想的新玩法;而音视频技术则帮助用户更加方便、舒适地看到各类繁复玩法的视频,实现短视频、直播、连麦、K歌等多场景下的音频自然、真实、清晰。

随着4月26日世界知识产权日的到来,快手向外界展示了快手近年来在视频生产、编辑、消费体验方面蕴藏的丰富科技创新“绝活”。

以往的酷炫特效技术由于计算量大,只能借助算力庞大的PC端和服务端进行创作。随着移动时代的来临,迫切需要将这种能力转移到移动端,并与视频拍摄巧妙结合起来,让用户随时随地感受到拍摄的乐趣,创作出个性化的作品。快手通过自研AI推理引擎、模型压缩算法,在不降低特效体验的前提下,将计算量大幅压缩,普通手机即能满足要求,因此诞生了快手APP上成百上千的魔法表情。

隐身魔表

2020年,在快手和江苏卫视联手打造的“一千零一夜”晚会上,迪丽热巴当场表演了一个隐身绝技,惊艳全场。不需要任何道具的支持,只需要应用快手最新开发的魔法表情就能轻松实现。这是结合单图图像修复和帧间图像对齐技术的视频修复算法在短视频行业中的首次应用,快手在这方面走在了行业的前头。如此好玩的特效迅速获得了用户的喜爱,上线几天时间,快手用户就玩得飞起,迅速贡献了近80万个相关作品。

视频修复涉及到多帧计算,其深度学习模型普遍计算量较大,很难在移动端运行。快手的工程师们将算法整体分成了两个阶段:首帧使用移动端脑补模型实现对人像区域的背景填充,后续帧使用帧间实时跟踪匹配投影,实现可见背景区域向人物遮挡区域的填充。其中对训练方法、训练数据和损失函数做了一系列优化,这一套技术组合拳后,不仅隐身功力一流,并且在各种机型上都能轻松实现。

年龄渐变魔表

2020年春节期间,快手以年龄渐变为主题,上线了一系列魔法表情,实现了图像人物从娃娃脸到老年等全过程的特效,这一特效可以让用户回忆年少的模样、展望变老后的模样,用科技手段增加了人间温度感。

该特效基于深度学习的生成式对抗网络(GAN),结合快手积累的大量数据集及定制化的模型压缩技术,才能达到实时在手机端实现的效果。利用快手自研的YCNN深度学习推理引擎和压缩算法,才使得这种复杂任务在手机端流畅运行,甚至能够惠及各种中低端机型。

混合现实特效

快手研发落地了混合现实新特效,用户通过快手的MR混合现实系统可以实时体验虚实遮挡、体表运动、虚拟打光、物理碰撞等虚实交互特性。快手最近半年已上线了“新春灯牌”、“辞旧迎新”、“蹦迪滤镜”等多款MR魔表,是国内首家上线该技术的公司,极大的激发了用户创作的热情,提高了用户的视频创作体验。相关技术论文已被欧洲计算机视觉国际会议(ECCV) 2020等收录。

从二维图像中恢复三维信息是实现这些功能的基础,其中自然场景的深度估计是一大难题,技术团队从模型、算法、训练方法和数据上全面改进,改善了深度估计的质量,实现了移动端实时单目深度估计。快手也利用这些技术创新,在产品侧推广落地了立体照片、景深虚化等新玩法。

很多特效是在真实拍摄对象上增加了虚拟能力,呈现出亦真亦假的效果,其中自然、真实的特效是用户体验的关键,即让特效图像既像真人,又非真人,甚至产生让人信以为真的效果。这个看似简单的功能背后需要强大的算法支撑,快手克服训练数据、模型结构、算法逻辑等各方面困难,推出了一系列爆款特效。

童话风格魔表

快手推出的童话魔表特效,可以让每个人轻松实现自己的王子梦、公主梦,把自己变成童话形象的神奇效果,引来杨幂、迪丽热巴、娄艺潇等明星纷纷晒出自己的公主变身效果。

其实真人变卡通图、日漫二次元图像早已不是新鲜事,但是童话风格与日漫风格存在很大差异,不仅要保留真人容貌特点,还要实现动画的3D人像风格,既要风格像,也要内容像,加上训练数据不足,进一步加大了这一技术的实现难度。针对以上这些难题,快手Y-tech团队的AI工程师采用了自研的KStyleGAN结构,在3D空间中表征人脸结构、进行风格映射,并采用神经网络渲染来精细控制结果图的质感,有效克服了常规基于2D表征的StyleGAN方法的缺陷,并在移动端上落地了实时特效。

二次元风格魔表

“我慕容魔表,对着大地,对着天空,对着云,对着风,对着快手园区发誓:我一定要圆你的主角梦!!”你还记得那些玛丽苏文吗,是否也幻想成为霸道总裁或玛丽苏女主?2020年十一前夕,快手推出了一系列言情手绘魔表,上线后迅速火爆网络。

快手工程师介绍,相比于此前的一些特效玩法,“手绘”系列最大的不同,是需要兼顾真实感、美感以及卡通效果三方面的要求。也就是说,既要最大程度保留用户本人的五官和外形特征,还要具备手绘风格的美学和艺术效果。快手特效中心团队研发了一个基于GAN(生成式对抗网络)的图像翻译和风格迁移学习训练框架,结合此前CycleGAN、U-GAT-IT等技术的主要优点,并根据实际需求进行了定制化的开发和优化。

 1/3    1 2 3 下一页 尾页