搜索

剃头挑子、京韵大鼓、摆地摊,AI技术重现的老北京原声影像又火了,网友:这口音太过真实

机器之心 · 2020-07-02
这次还带时代原声

编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),参与:张倩、蛋酱,36氪经授权发布。

「大谷的游戏创作小屋」又用AI修复了一段老北京影像,这次还带时代原声……

剃头挑子、街边地摊、京韵大鼓,多数人可能只在电影、电视剧中看过老北京的这些景象。但早在 90 年前,就有人将这些场景都拍了下来,而且完好地保存在美国南卡罗莱纳大学影像库。影片中还收录了时代原声,原汁原味地记录了当时老北京的平民生活。

90 年后,有人将这些影片翻了出来,还用 AI 进行了修复,包括上色、提高分辨率等操作。

从这段影片中,我们能看到很多非常生活化的场景,比如小学生在学校外边买饭:

小伙子找个剃头摊剃头:

在观赏修复效果的同时,我们还能听到剃头师傅和小伙子一问一答:

「疼不疼?」

「不疼。我还不哭呢外带着。」

「嘿,你家什么地方住?」

「宝坻县」

「这头剃得好,不疼。剃不好,真疼!」「剃好了咱还找你去」

「你家几口人呐?」

「十口!」

「十口人?怎么那么些人呢?」

「人多,好。」

「一天挣二毛钱够挑费不?」

「一天挣两块!」

「哦,这还不错。」

这段场景被当时的拍摄者描述为 「不用付租金的理发师」。

剃完之后,小伙子还不忘给个好评,一边拍着脑瓜一边说:「剃挺好!」 那时候的人大概没有预料到,在 90 年后的今天,现代人都忙着生发、植发、戴假发……

希望坐在电脑前的你变强变秃后也能保持这份心态。

剃完了头逛逛街吧,看看 90 年前的首都地摊长什么样:

‍可以看到,90 年前的北京街头也是人头攒动,有卖衣服的、卖(遛)鸟的、卖各种小商品的,其热闹程度似乎不亚于疫情前的王府井。

除了这些,街头还有一些老艺人,向我们呈现百年前的京韵大鼓:

看到这里,你或许已经猜到了这段视频的修复者,他就是前段时间很火的 B 站 up 主 「大谷」。就在不久前,大谷在他的 B 站账号「大谷的游戏创作小屋」 上发布了第一个老北京修复影片 。截止目前,该视频的累计播放量已经达到 200 多万,还得到了央视等权威媒体的报道。

这次的修复影像由「大谷的游戏创作小屋」和央视新闻联合发布。原视频出处为南卡罗莱纳大学影像库馆藏胶片,音效也不是后期配音,全部为时代原声。

看完之后,很多人才发现,一百年前的北京市民和现在长得一模一样,口音也如出一辙:「还在想回去要咋交流,原来一样的哈哈哈」

还有人评价说,「剃头的俩人像在说相声”。

这次修复用了什么技术?

在第一期的老北京影像修复过程中,UP 主借鉴了海外 YouTube 博主 Denis Shiryae 的影像修复教程,包括上海交大 Bao Wenbo 等人提出的 DAIN 插帧技术(参见论文《Depth-Aware Video Frame Interpolation》)。

这一次,UP 主特别提到,除了上述修复技术,自己还用到了一种新技术:DeepRemaster。

论文地址:http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

这项技术由日本筑波大学和早稻田大学的两位研究者合作提出,论文被计算机图形学顶会 SIGGRAPH Asia 2019 收录。与近年来使用递归模型处理视频的方法不同,该方法对老旧影像的修复是基于全卷积网络实现的。

老旧影片的修复包含多项步骤,比如超分辨率、噪声消除和对比度增强,旨在让已经老化的影片介质恢复到原始状态。当然,由于特定时代的技术限制,许多老旧影片要么是黑白影像,要么色彩呈现质量较低,因此在修复中也常常需要着色。

在这项研究中,研究者提出了一个单一框架,以半交互的方式处理所有重制任务。该框架基于带有注意力机制的时间卷积神经网络。他们提出的 source-reference 注意力允许模型处理任意数量的彩色参考图像(reference color images),在不需要分割的情况下给长视频着色,同时保持时间一致性。与之前的方法相比,该方法的性能随着视频长度和彩色参考图像数量的增长而增长。

DeepRemaster 的网络架构如下:

输入一系列的黑白图像,通过预处理网络修复,修复的结果作为最终输出视频的亮度通道。然后,source-reference 网络将预处理网络的输出和任意数目的彩色参考图像结合,产生视频的最终色度通道。

在着色过程中,研究者使用了 source-reference 注意力,让模型依照彩色参考图像中相似区域的颜色对视频进行着色。模型输出部分就是输入视频重制后的版本。

为了测试网络的效果,研究者对一些老旧影像进行了重制,并对该方法进行了定量和定性的深入评估。

在下图中,每个视频最上面一行的图像是着色的参考图像。实验结果表明,利用 source- reference 注意力,使用少量参考图像即可高效获得稳定、一致的数千帧图像。

《Right to Health, A (Part I)》重制结果, 使用了三张参考图像。

《Freedom Highway (1956)》重制结果,使用了两张参考图像。

《The Jungle Book(1967)》重制结果,使用了 41 张参考图像。

与以往方法相比,用 DeepRemaster 重制的图像与真实世界的色彩更加一致。

在噪声消除方面,DeepRemaster 能够很好地处理各种类型的噪声,同时也能够锐化输入图像。

如果你也对影片修复感兴趣,可以参考论文中的方法。

+1
15

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

文章提及的项目

处理网

逛街吧

稻田

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业