当前位置:首页>科技 >内容

什么是Deepfake,为什么Deepfake生成的假脸会这么自然

2023-11-17 10:35:02科技漂亮的斑马

很多朋友对什么是Deepfake,为什么Deepfake生成的假脸会这么自然不是很了解,六月小编刚好整理了这方面的知识,今天就来带大家一探究竟。编

什么是Deepfake,为什么Deepfake生成的假脸会这么自然

很多朋友对什么是Deepfake,为什么Deepfake生成的假脸会这么自然不是很了解,六月小编刚好整理了这方面的知识,今天就来带大家一探究竟。

编者按:自从换脸工具Deepfake风靡全球后,人们开始意识到,除了短信电话诈骗,现在连文章都可以“诈骗”了。为了应对新技术带来的犯罪风险,研究人员最近一直在试图找出假文章和真文章的区别。就在本月早些时候,美国国防部正式公布了纽约大学开发的一种检测工具,他们发现了GAN生成的文章的一些明显特征。

当时美国国防部欢呼这项技术是人类对抗AI军备竞赛的开始。最近,这项技术的开发者接受了媒体的采访。让我们结合报告和论文来仔细看看他们的方法。Deepfake目前的缺陷是闭着眼睛也找不到足够多的图像。

随着2018年年中的临近,美国选战逐渐升温。在很多宣传中,一种新形式的虚假信息开始在社交媒体上广泛传播。这种生成假文章的技术被称为“Deepfake”,可以将文章中的人脸替换成别人的脸,同时保持面部肌肉运动和谐,口型与声音匹配。结合政治宣传,这意味着任何人都可以“恶搞”候选人,制作他们“演讲”和“活动”的假文章。

由于这种技术非常新颖,效果突出,普通人不仔细看可能分辨不出真文章和假文章的区别。为了防范背后的社会安全风险,近日,纽约大学的研究人员找到了一种可靠的方法来区分真假文章。他们发现,在假文章中,人的头部动作和瞳孔颜色通常很怪异,当人眨眼时,他们的眼睛会奇怪地移动。什么是Deepfake?

既然要打击虚假文章,那就从Deepfake开始吧。下面是它的作品“案例”:文章左边是真实文章,右边是Deepfake的加工品。其工作机制类似于语言之间的相互翻译。首先用一个叫做深度神经网络的机器学习系统来检查一个人的面部动作,然后合成目标人的面部,让后者做出类似的动作。

在生成逼真的文章之前,这个深度神经网络需要目标任务的大量图像数据。图像的数量和多样性决定了网络的“学习”效果。数据越多,模拟效果就越逼真。

上图是神经网络训练和测试过程的详细示意图。看完文章,可能有人会有疑问:Deepfake生成的假脸为什么这么自然?这是因为在训练阶段,我们会先把目标人物A的脸挖出来,定位五官的位置,再训练一个无论如何都会扭曲A的脸的网络,最后生成一个正常的A脸。

一旦上面的网络训练好了,我们就可以把B的脸输入进去了。此时,在神经网络看来,B的脸其实就是A的扭曲脸,所以会直接“矫正”。至于表情和嘴型的细节,这个已经在训练过程中学到了。数据越多,效果越好。我相信这不难理解。除了以上基本内容,为了保证生成效果,还要注意清晰度、人脸识别效果、图像融合等问题。眨眼/不眨眼?

如果再看一下上面的文章,相信很多细心的读者会发现,在虚假文章中,人物往往是“瞎”的,几乎不眨眼。这是Deepfake目前的一个软肋。

当然,这个弱点并不是来自于算法本身,更多的是来自于它所使用的数据集。健康成年人的眨眼频率为2-10秒,眨眼需要十分之一到十分之四秒。在真实的演讲文章中,演讲者眨眼是相当正常的,但假文章中的假人几乎都是“不眨眼”高手。把主持人的脸换成尼古拉斯凯奇(对应文章画面)。

这是因为当训练深度神经网络时,我们使用来自网络的静态图像。即使是尼古拉斯凯奇这样的公众人物,他的照片也大多是睁眼的,除非为了某种艺术效果,摄影师不会公布明星们的闭眼照片。这意味着数据集中的图像不能代表眼睛的自然运动。

由于数据集中几乎没有眨眼的图像,Deepfake学会眨眼的概率几乎为零。但是,有些人看到这里可能会有疑问。在之前的文章中,有一个眨眼的瞬间。这个依据不可信吗?这与人眨眼的频率和速度有关。以上是真假文章中人物的眨眼记录。研究人员统计了所有文章中真人的眨眼频率,并框出了一个范围。他们发现Deepfake文章中假人的眨眼频率远低于这个范围。

如何检测眨眼?有了上述发现,整个“伪造”问题可以简化为“眨眼检测”问题。

作者开发了一种方法来检测文章中人眨眼的时间。更具体地说,他们引入了两个神经网络,其中第一个网络首先扫描文章的每一帧,检测其中是否包含人脸,如果包含,则自动定位眼睛。之后,第一个网络将眼睛截图输入第二个网络,第二个网络利用眼睛的外观、几何特征和运动来判断眼睛是睁开还是闭上。下面是第二深度神经网络LRCN的示意图:

它包括三个模块:特征提取、序列学习和状态预测。

其中特征提取模块(第二行)负责把输入的眼部图像转成神经网络可以“理解”的特征,这是个基于VGG16架构的CNN。序列学习模块(第三行)由RNN和LSTM构成,LSTM-RNN的使用是为了增加模型的信息存储量,避免在使用随时间反向传播(BPTT)算法时出现梯度消失。最后一个模块——状态预测,由全连接层构成,它输入LSTM的输出,并用一个概率预测是睁眼(0)还是闭眼(1)。

根据实验结果,LRCN的准确率高达95。

当然,虽然论文只介绍了判断眨眼频率的方法,到这里就结束了。但根据之前Siwei Lyu的介绍,他们团队其实找到了一种更高效的技术,只是为了防止某些人恶意迭代Deepfake,这种方法暂时需要保密。

论文方法的缺陷

在接受媒体采访时,Siwei Lyu自己也坦言,论文只提出了一种短期内的有效方法,它的“寿命”可能很短,破解方法也很简单。

之前我们提到了,算法学不会眨眼,主要是因为没有眨眼数据。换句话说,如果我们能提供大量不同眨眼阶段的图像,那么深层神经网络学会眨眼只是时间问题。更有甚者,为了让尼古拉斯凯奇学会眨眼,我们不需要派狗仔去偷拍,收集自己的眼部数据就够了。

此外,对于上面这类文章,这种方法也没法起作用。因为它不同于Deepfake的全脸移植,而是把假嘴和假声音(这年头合成声音也能造假)移到真人脸上。

这是去年美国华盛顿大学研究团队公布的一项成果,它不需要扫描大量的演讲影音资料,也不需要分析不同人说出相同句子的嘴形,只需影音素材即可,成本和规模更小,制作耗时也更短(17小时)。

因此,全民“打假”依然任重道远,这种方法只是当前迈出的第一步。未来,生成假文章和检测假文章将成为日常生活中的常见博弈,但这应该不是所有人希望看到的。在鼓励研究人员开发更靠谱的检测方法的同时,我们应该呼吁停止滥用技术。

除了不要再制作某些低俗、违法文章,电影工业也要把它用于正途,不要让技术沦为抠图流量明星的新“捷径”。

以上就是关于什么是Deepfake,为什么Deepfake生成的假脸会这么自然的知识,希望能够帮助到大家!

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top