主页 > 百科平板 >类神经网路如何让电脑合成照片逼真得难以分辨? >

类神经网路如何让电脑合成照片逼真得难以分辨?

2020-07-29

类神经网路如何让电脑合成照片逼真得难以分辨?

2011 年苹果推出 Siri 的时候,似乎在人工智慧上领先了其他大公司不少的距离——并非如此。在之后的 5 年里,Google、Facebook、Amazon 等大公司相继将人工智慧提到了公司级核心战略的位置,苹果并未给人留下什幺深刻的印象。

为了追赶竞争对手,在今年 9 月的秋季发布会上苹果正式推出了 iOS 10,着力宣传了其中不少通过人工智慧的方法实现的功能,比如照片应用可以自动识别人脸来帮助用户管理照片等等。

在本月早些时候结束的 NIPS 大会上,苹果的人工智慧总监,卡内基梅隆大学教授鲁斯·萨拉库蒂诺夫(Russ salakhutdinov)透露了苹果将要发布人工智慧论文的消息。他的一张 PPT 截图吸引了人们的眼球:

圣诞节前,一篇由多名苹果深度学习研究员署名的文章终于正式出现在了论文库 arXiv 的机器视觉板块里。

该论文标题为 《Learning from Simulated and Unsupervised Images through Adversarial Training》,描述了苹果正在使用的一种特殊的方法,能够显着降低训练图像识别用途神经网路的成本。

这篇论文提出的方法能够让神经网路使用电脑生成的「合成图片」(synthetic image)训练,取得和使用真实世界照片(real image)训练一样好的效果。

具体来说,在人工智慧学界和业界人们通常认为使用真实世界照片去训练图像识别系统的效果更好。但这样做的成本往往是很高的,因为电脑能看懂一张照片的前提是照片已经被打上了标记。

举个直观的例子:想让电脑看懂下图,需要提前把照片里的关键元素打上标记,这个是手那个是杯子等等。

类神经网路如何让电脑合成照片逼真得难以分辨?

但这种标记的工作很比较消耗时间、金钱和人力。当研究者在这些资源上比较稀缺的时候,也可以选择使用电脑声称并已经打好标记的合成图片。合成图片在业界看来劣势在于「不够真实」,导致使用合成图片训练的神经网路,在识别真实世界照片时性能并不算好。

在论文中,苹果宣称他们採用了一种类似于 生成式对抗(Generative Adversarial Networks , GAN)的神经网路模型。GAN 在过去比较主要的用途之一就是训练电脑生成拟真的照片,形象来讲,就是用一个生成「合成图片」的网路,和另一个提供真照片的数据集进行对抗,再用一个单独的鉴别网路进行鉴别。

苹果的科研人员在 GAN 基础之上,对模型做出了一些比较重大的调整,比如输入的不是随机向量而是合成照片,最终提出了这种他们称为「Simulated + Unsupervised」(模拟+未监督)的学习模型:

类神经网路如何让电脑合成照片逼真得难以分辨?

苹果认为,这篇论文对机器视觉做出的贡献,除了提出了新的学习模型之外,还包括使用了这个模型在完全无人工对图片标记的前提下成功训练出了一个优化网路(Refiner),让电脑能够生成出更「真实」的合成照片——图片失真更少,真实性水準更稳定。

该论文的第一作者是 Ashish Shrivastava,苹果深度学习研究员。其他作者包括 Tomas Pfister、Oncel Tuzel、Wenda Wang、Russ Webb 和 Josh Susskind 。其中 Josh Susskind 是深度学习机器视觉公司 Emotient 的创始人,该公司今年刚刚被苹果收购。


上一篇: 下一篇:

相关推荐