三星新 AI 系统只用一张图像就能生成换脸视频

TechCrunch • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

机器学习研究人员开发了一套系统，它可以利用一个人脸部的单帧画面呈现出逼真的动作。有了这样的系统，我们不仅可以对照片进行动画化处理，而且还能让那些画作 “活” 过来。该系统的效果还不完美，但它做出的成果——跟如今大多数人工智能作品一样——既怪异又令人着迷。

三星人工智能研究中心（Samsung AI Center）在其发表的论文中描述了这个系统，该论文已经上传到预印本网站 Arxiv 。该系统使用了新的方法，将源面孔（即人在讲话时的头部特写）上的面部标志物与目标面孔的数据对应起来，从而让目标面孔做出源面孔的动作。

这本身并不新鲜，而且这也是人工智能领域目前所面临的合成图像问题的组成部分（对于这个问题，我们最近在伯克利举行的 “Robotics + AI” 活动上进行过有趣的探讨）。我们现在已经可以在一段视频中生成一张面孔，让它模仿另一张面孔在说话或观望时的神情。但那些模型大多需要很多数据，例如对一两分钟的视频数据进行解析。

然而，三星驻莫斯科的研究人员在他们的新论文中展示，只使用单张人脸图像，他们就能生成让目标面孔转动、说话或做表情的视频，其效果虽远非完美无瑕，却具有令人信服的表现力。

为了做到这一点，这套系统预先使用大量数据馈入面部标志物识别过程，从而让模型能够非常高效地在目标面孔中找到对应于源面孔的部分。系统掌握的数据越多，效果会越好，但它也可以通过一张图像来生成视频（这被称为单张图像学习），而且效果也说得过去。有了这样的技术，我们就有可能使用爱因斯坦或玛丽莲·梦露的照片，乃至于《蒙娜丽莎》这幅画作，让图像中的人物像真人那样说话和做出动作。