您当前的位置 :胡场网 > 科技  2D图片3秒变立体,变换视角流畅自然:Adobe实习生成果登
关键词:

2D图片3秒变立体,变换视角流畅自然:Adobe实习生成果登

胡场网      2019-11-04 11:57:47  

干鱼、羊和栗子来自凹入的非寺庙

量子位报告

你离礁石越来越近,好像你会在一秒钟内撞上礁石。

然而,这张动态照片不是从人类拍摄的视频中拍摄的。

Adobe的新魔法将这张静态照片变成了立体印象。整个过程只需要2-3秒钟:

这种特效处理常用于纪录片等视频的后期制作,被称为肯·伯恩斯效应(ken burns effect)。

最初只是二维缩放(如下图所示)。视差是通过平移和缩放静止图像产生的,从而实现动画效果。

然而,adobe的3d效果(就在上面)不仅具有平移和缩放功能,还具有透视转换功能,给人们带来更身临其境的体验。

要做到这一点,专业设计师需要花几个小时在photoshop等软件上。

此外,生产成本也很高。一张照片需要大约40-50美元(大约280-350元)。

Adobe还出现在由acm赞助的顶级计算机图形杂志tog中,引起了很多讨论和关注。不乏兴奋的网民给出“三个联系”:

难以置信。太神奇了。天啊。

这根本不是简单的缩放。

透视原理确定前景比背景移动/缩放更剧烈。

因此,当前景移动时,除了移动之外,还应该修复背景。

人工智能的背景恢复非常自然,技术明显优于“前辈”:

三角洲形状有点奇怪的教堂

此外,人工智能不怕简单和复杂的背景。

例如,当你去沙发时,沙发会挡住后窗外面的草:

背景的颜色和结构非常复杂,但人工智能并不盲目。

如果你认为视角只是从远到近的变化,这还不够复杂。然后看看古老的台阶:

好像你要走上台阶,所以你正慢慢转向它的方向。

此外,你所在的一条古老的走廊似乎正从向上的角度向前看。

当然,不仅风景可以处理,肖像也可以处理。

例如,草地上的新娘可以从远处或近距离看到。

正如开头提到的,所有的转换都只由一个静态图完成。

这自然不是普通变焦所能做到的:

三角形左为普通变焦,右为3d魔术

那么,它做了什么样的技术?

结合上下文感知的三步边界确定

为了从单个图像合成逼真的相机运动效果,需要解决两个基本问题。

首先,应该设置新的摄像机位置来合成新视图,并且应该精确地恢复原始视图的场景几何。

其次,根据预测的场景几何形状,新视图应该在连续的时间线上合成,这涉及图像恢复方法,例如去块。

研究人员使用三个神经网络来构建处理框架。

用于训练的数据集由计算机生成。研究人员从ue4 marketplace2收集了32个虚拟环境,并用虚拟相机在32个环境中捕捉了134,041个场景,包括室内场景、城市场景、农村场景和自然场景。每个场景包含4个视图,每个视图包含分辨率为512×512像素的颜色、深度和法线贴图。

指定高分辨率图像,首先根据其低分辨率版本估计粗略深度。该步骤由vgg-19执行。根据vgg-19提取的语义信息,深度估计网络的训练由具有地面真值的计算机合成数据集指导和监督。这样,可以提取原始图像的深度图。

第二个网络是maskr-cnn。为了避免语义失真,与vgg-19并行,使用掩码r-cnn对输入的高分辨率图像进行分割,然后根据分割结果调整深度图,以确保图中的每个对象映射到相干平面。

最后,通过使用深度细化网络并参考输入的高分辨率图像,对提取的粗略深度进行上采样,以确保更精确的深度边界。

采用深度细化网络的原因是物体在切割过程中可能在边界处被撕裂。

利用从输入图像获得的点云和深度图(注意:点云是指通过3d扫描获得的物品的外观表面的点数据集),可以呈现连续的新视图。

然而,这里会有一个新的问题——当虚拟相机向前移动时,物体本身会产生裂缝(下图中塔的右侧被网格切割)。

为了解决这个问题,研究人员采用了一种结合上下文感知修复的方法。

组合上下文信息可以产生更高质量的复合视图。上下文信息界定了输入图像中相应像素位置的邻域,因此可以通过使用上下文信息来扩展点云中的每个点。

具体来说,第一步是修复颜色和深度图像,以从不完整的渲染中恢复完整的新视图,其中每个像素包含颜色、深度和上下文信息。

然后,图像恢复深度用于将图像恢复颜色映射到点云中的新色调点。

重复此过程,直到点云完全扩展并填补空白,并且可以实时呈现完整连续的图像。

“说了又做了。”

研究人员认为这很好,但这并不好。新方法的效果取决于用户。

因此,研究小组开发了一个“非正式用户调查”。他们在youtube上收集了30个由人类创作的3d ken burns视频,并将其分为“风景”、“肖像”、“室内”和“人造室外环境”四组。每组随机选择三个视频作为样本。

八名志愿者参加了测试。该团队给每位志愿者分配了一张静态地图,并提供了人类作品作为参考。志愿者被要求使用新方法和两个肯伯恩斯制作工具——adobe after effects模板和移动应用程序视图来创建类似的效果。

志愿者将根据他们的主观意见评估每个工具的可用性和质量。

从志愿者的角度来看,adobe的新工具在效果和易用性上都明显更好。

adobe(现谷歌)的实习生

本研究的第一作者是波特兰州立大学的博士生西蒙·尼克劳斯(simon niklaus),他的研究方向是计算机视觉和深度学习。

他在adobe research实习期间完成了这项工作,目前正在谷歌实习。

他的博士生导师刘峰毕业于威斯康辛大学麦迪逊分校,现在是波特兰州立大学的助理教授,也是该研究的作者之一。

此外,该研究还有另外两位作者,龙脉和杨笈每,都是土坯研究科学家。

西蒙·尼克劳斯在与网民交流黑客新闻时也谈到了这项研究的开源项目。

他说,他计划发布代码和数据集,但尚未获得批准。因为这项工作是由“实习生”完成的,adobe在开源方面非常慷慨。

当然,这不能排除它们商业化的可能性。如果你对这项研究感兴趣,你可以先看看研究论文:

单个图像的3d ken burns效果

https://arxiv.org/abs/1909.05483

还有一件事……

还有一个关于乔布斯的关于肯·伯恩斯效应的故事。

为了将这种特效应用于苹果,乔布斯还联系了肯·伯恩斯(ken burns),希望得到他的许可。

起初伯恩斯拒绝了。他不想自己的名字被商业化。

但是伯恩斯后来透露,他同意了乔布斯的要求。

在这中间发生了什么,并没有传递太多的信息。

目前,这种效果在iphone中被广泛使用。例如,照片的“回忆”功能可以自动使用这种特殊效果将照片制作成视频。

这也给伯恩斯带来了很多“麻烦”。

他说,有时当他在街上行走时,陌生人会冲到他面前,告诉他如何在iphone上使用手机或者问他一些问题。

对于这种情况,他说他正在尽力迅速逃离现场。这类似于明星会议跟踪粉丝。

emmm……

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

支付宝宣布全球用户超12亿出海 下沉贡献增量
新闻
推荐
Copyright 2018-2019 alj6.com 胡场网 Inc. All Rights Reserved.