1.7秒快速复原高清大片!深圳团队开发图像复原“黑科技”

读特新闻记者 严偲偲
07-28 15:16

读特客户端

读特在线,您的新闻观察眼

摘要

为文化传承与保护、影视修复等领域带来新的可能性。

如何把一张老照片修复得又快又好?长期以来,图像复原领域一直面临一个难题:要么追求质量却耗时漫长,要么追求速度却牺牲细节。

7月28日,中国科学院深圳先进技术研究院数字所董超研究员团队发布了一项名为HYPIR的图像复原大模型,不仅比现有的图像复原技术快数十倍,更在高清分辨率、文字保真、理解能力、用户控制灵活性等方面展现出了优异性能,为图像复原技术的实际应用提供了更高效的解决方案,为文化传承与保护、影视修复等领域带来新的可能性。

1985年的深圳南头半岛(下图,摄影:陈宗浩)与4倍超分修复(上图)后的对比图。

HYPIR大模型1.7秒复原大片

传统基于预训练扩散模型的复原技术,存在计算复杂度高、推理速度慢、训练资源消耗大以及生成结果可控性不足等问题,成为限制图像复原技术发展的瓶颈问题。

去年,董超团队提出了智能画质增强大模型SUPIR,将低质量的图像恢复到接近原始状态的高清图像,有效修复多种退化类型的图像。而此次图像大模型HYPIR作为升级版,舍弃了迭代式的扩散模型训练,改用单步的对抗生成模型训练方式,将原有的算法速度提升了数倍,同时采用更新的文生图基模型进一步提升算法效果,实现了8K级别的细节生成,在生成图像的稳定性和可控性方面远超SUPIR大模型。

董超研究员(左)介绍HYPIR大模型。

“以往图像复原方法中往往包括扩散模型蒸馏、ControlNet适配器或者多步推理过程。而HYPIR不需要依赖这些步骤,使用方法更加简单。在训练和推理速度上较传统方法提升了一个数量级以上,且性能更优。”董超介绍,HYPIR主要有两个创新点,一是使用预训练扩散模型初始化复原网络;二是从理论角度出发解释这一简单方法背后蕴含的深刻原理。

实验数据显示,在单张显卡(图像处理器)上,HYPIR仅需1.7秒即可完成一张1024x1024分辨率图像的复原。相比现有的图像复原方法,研究人员提出的HYPIR在复原图像的质量上性能更优,且能够适用于各种尺寸的预训练扩散模型,为不同应用场景提供了灵活性。

HYPIR大模型与其他模型修复效果对比。

广泛应用于影视修复、文化保护

在应用层面,研究人员介绍,HYPIR在图像高清分辨率、文字保真、理解能力、用户控制灵活性等方面均展现出了优异的性能。

例如,在老照片修复方面,研究人员运用HYPIR修复了国内外经典电影、电视剧老照片,让模糊的影像重现清晰的细节,为文化记忆传承提供了技术支持。在高分辨率图像修复领域,HYPIR同样表现出色,因其兼具速度与效果,HYPIR成功攻克了传统方法在生成8k分辨率图像时往往面临速度慢或效果不佳的难题。

索尔维会议的修复图对比,上图为修复后,下图为修复前。

在文字保真方面,传统基于扩散模型的方法常导致复原出的文字模糊或扭曲,缺乏精确性,而HYPIR则能够使复原出的文字保持高保真度和清晰度,无论是简单的标识还是复杂的文档,HYPIR都能精准地还原其原始形态,使图像中的文字清晰可读。

值得一提的是,HYPIR还具备了突出的自然语言理解能力,能够精准捕捉和理解用户的输入指令,在图像复原过程中准确地反映用户的意图。此外,用户可以根据需求灵活调节生成与复原的平衡,或精细控制图像细节程度,从而获得符合自身偏好的结果。这种用户友好的设计使得HYPIR不仅适用于专业领域,也能满足普通用户的需求。

目前HYPIR大模型的开源代码和模型已上传至GitHub开放使用并已成功部署于明犀科技平台中,同时与深圳市南山区档案馆合作对部分馆藏照片进行修复,后续该大模型还将进一步推进产业化,让社会公众亲身体验科技魅力。

(文中配图由研究团队提供)

编辑 刘兰若 审读 郭建华 二审 关越 三审 万晖

(作者:读特新闻记者 严偲偲)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读

读特热榜

IN视频

鹏友圈

首页