全球信息:当分割一切遇上图像修补:无需精细标记,单击物体实现物体移除

2023-04-19 03:21:38 来源: 机器之心Pro

机器之心专栏


(资料图片仅供参考)

机器之心编辑部

这次,强大的「分割一切」模型——Segment Anything Model,在图像修补任务上碰撞出了火花。

4 月初,Meta 发布了史上首个图像分割基础模型--SAM(Segment Anything Model)[1]。作为分割模型,SAM 的能力强大,操作使用方式也十分友好,比如用户简单地点击来选择对应物体,物体就会立即被分割出来,且分割结果十分精准。截至 4 月 15 号,SAM 的 GitHub 仓库的 Star 数高达 26k。

如何利用好如此强大的「分割一切」模型,并拓展到更加有实际需求的应用场景至关重要。例如,当 SAM 遇上实用的图像修补(Image Inpainting)任务会碰撞出什么样的火花?

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM,他们提出「修补一切」(Inpaint Anything,简称 IA)模型。区别于传统图像修补模型,IA 模型无需精细化操作生成掩码,支持了一键点击标记选定对象,IA 即可实现 移除一切物体(Remove Anything)、填补一切内容(Fill Anything)、替换一切场景(Replace Anything) ,涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

论文链接:http://arxiv.org/abs/2304.06790 代码库链接:https://github.com/geekyutao/Inpaint-Anything

方法介绍

尽管当前图像修补系统取得了重大进展,但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM, 研究者首次尝试无需掩码(Mask-Free)图像修复 ,并构建了「点击再填充」(Clicking and Filling) 的图像修补新范式,他们将其称为修补一切 (Inpaint Anything)(IA)。 IA 背后的核心思想是结合不同模型的优势,以建立一个功能强大且用户友好的图像修复系统 。

IA 拥有三个主要功能:(i) 移除一切(Remove Anything):用户只需点击一下想要移除的物体,IA 将无痕地移除该物体,实现高效「魔法消除」;(ii) 填补一切(Fill Anything):同时,用户还可以进一步通过文本提示(Text Prompt)告诉 IA 想要在物体内填充什么,IA 随即通过驱动已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相应的内容填充物体,实现随心「内容创作」;(iii) 替换一切(Replace Anything):用户也可以通过点击选择需要保留的物体对象,并用文本提示告诉 IA 想要把物体的背景替换成什么,即可将物体背景替换为指定内容,实现生动「环境转换」。IA 的整体框架如下图所示:

Inpaint Anything(IA)示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能够平滑移除选定物体(即 Remove Anything)。进一步地,通过向 IA 输入文本提示,用户可以用任何想要的内容填充物体(即 Fill Anything)或者任意替换对象的物体(即 Replace Anything)。

移除一切

移除一切(Remove Anything)示意图

「移除一切」步骤如下:

第 1 步:用户点击想要移除的物体; 第 2 步:SAM 将该物体分割出来; 第 3 步:图像修补模型(LaMa)填补该物体。

填补一切

填补一切(Fill Anything)示意图,图中使用的文本提示:a teddy bear on a bench

「填补一切」步骤如下:

第 1 步:用户点击想要移除的物体; 第 2 步:SAM 将该物体分割出来; 第 3 步:用户通过文本示意想要填充的内容; 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体进行填充。

替换一切

替换一切(Replace Anything)示意图,图中使用的文本提示:a man in office

「填补一切」步骤如下:

第 1 步:用户点击想要移除的物体; 第 2 步:SAM 将该物体分割出来; 第 3 步:用户通过文本示意想要替换的背景; 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体的背景进行替换。

模型结果

研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是, 研究者的模型还支持 2K 高清图和任意长宽比,这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用 。

移除一切实验结果

填充一切实验结果

文本提示:a camera lens in the hand

文本提示:an aircraft carrier on the sea

文本提示:a sports car on a road

文本提示:a Picasso painting on the wall

替换一切实验结果

文本提示:sit on the swing

文本提示:breakfast

文本提示:a bus, on the center of a country road, summer

文本提示:crossroad in the city

总结

研究者建立这样一个有趣的项目,来展示充分利用现有大型人工智能模型所能获得的强大能力,并揭示「可组合人工智能」(Composable AI)的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图像修补系统,融合了物体移除、内容填补、场景替换等功能(更多的功能正在路上敬请期待)。

IA 结合了 SAM、图像修补模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等视觉基础模型,实现了对用户操作友好的无掩码化图像修复,同时支持「点击删除,提示填充」的等「傻瓜式」人性化操作。此外,IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像,且不受图像原始内容限制。

目前, 项目已经完全开源 。最后,欢迎大家分享和推广 Inpaint Anything (IA) ,也很期待看见更多基于 IA 所拓展的新项目。未来,研究者将进一步挖掘 Inpaint Anything (IA) 的潜力 以支持更多实用的新功能,如细粒度图像抠图、编辑等,并将其应用到更多现实应用中。

参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 10684–10695, 2022.

[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,

Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.

关键词:

精选 导读

全球快资讯:送给老师的贺卡怎么做简单(送给老师的贺卡怎么

大家好,小乐来为大家解答以上的问题。送给老师的贺卡怎么做简单,送给老师的贺卡怎么做这个很多人还不知道,现在让我们一起来看看吧!1、准

发布时间: 2023-04-19 02:43
要闻   2023-04-19

收入态势回稳向上 支出保持较高强度——解读一季度财政收支

收入态势回稳向上支出保持较高强度——解读一季度财政收支数据---财政部18日发布了今年一季度财政收支数据。数据如何解读?财政收支形势怎么看

发布时间: 2023-04-19 02:31
要闻   2023-04-19

4月10日-4月16日游戏安全处罚公示

永久封禁详细名单(选定链接右键点击转到即可查看):https: www ssjj cn news 643e590948917361353e64bb html为了打造绿色公平的游戏环境,

发布时间: 2023-04-19 02:02
要闻   2023-04-19

【速看料】嫁衣伤感的爱情

1、《嫁衣伤感的爱情》是见施创作的网络小说。2、发表于17K小说网。文章到此就分享结束,希望对大家有所帮助。

发布时间: 2023-04-19 01:53
要闻   2023-04-19

天天快讯:ChatGPT 用于金融市场分析任务:可分析美联储讲话

ChatGPT+正在被应用于金融行业的学术研究中,初步结果显示过去几个月对其的高度期待是合理的。最近发表的两篇论文介绍了如何将+ChatGPT+用于金

发布时间: 2023-04-19 01:21
要闻   2023-04-19

热点 推荐

全球信息:当分割一切遇上图像修补:无需精细标记,单击物体

机器之心专栏机器之心编辑部这次,强大的「分割一切」模型——SegmentAnythingModel,在图像修补任务上碰撞出了火花。4月初,Meta发布了史上首

发布时间: 2023-04-19 03:21
国内   2023-04-19

世界热点!大厂员工家属的“抱怨”,稀碎、996式的婚姻

上周日又独自大哭了一场。队友过完年单位换新领导之后,双休变单休。本来说好周日休息,结果又要过去加班(项目团队合作,他不好不去)。听到

发布时间: 2023-04-19 02:53
国内   2023-04-19

全球快资讯:送给老师的贺卡怎么做简单(送给老师的贺卡怎么

大家好,小乐来为大家解答以上的问题。送给老师的贺卡怎么做简单,送给老师的贺卡怎么做这个很多人还不知道,现在让我们一起来看看吧!1、准

发布时间: 2023-04-19 02:43
要闻   2023-04-19

【天天聚看点】遥想当年春衫薄笔趣阁(遥想当年)

大家好,小乐来为大家解答以上的问题。遥想当年春衫薄笔趣阁,遥想当年这个很多人还不知道,现在让我们一起来看看吧!1、你说的这种情况的话

发布时间: 2023-04-19 02:49
科技   2023-04-19

虚拟网络电话怎么打(网络虚拟电话在线拨打)

大家好,小乐来为大家解答以上的问题。虚拟网络电话怎么打,网络虚拟电话在线拨打这个很多人还不知道,现在让我们一起来看看吧!1、小编来告

发布时间: 2023-04-19 02:52
IT   2023-04-19

收入态势回稳向上 支出保持较高强度——解读一季度财政收支

收入态势回稳向上支出保持较高强度——解读一季度财政收支数据---财政部18日发布了今年一季度财政收支数据。数据如何解读?财政收支形势怎么看

发布时间: 2023-04-19 02:31
要闻   2023-04-19

全球速讯:北京市离境退税商店已超千家

北京市离境退税商店已超千家---北京退税商店已经超过1000家,这是记者18日从北京市税务局与西城区人民政府、北京市商务局等部门联合举办的“文

发布时间: 2023-04-19 02:28
科技   2023-04-19

天天最资讯丨古村落“撮合”青年人梨花时节见证传统婚俗

洞房内张贴十八全花,灶堂上贴着传统年画,喜神馍、垒旺火,村落里的女性纷纷前来观礼、帮忙。”梨花节起源于唐代的同川花会,是当地民众为梨

发布时间: 2023-04-19 02:38
IT   2023-04-19

“你无法对抗曲线”!利率曲线表明美联储继续加息的好处已微

市场预计美联储将再次加息,但短期利率曲线显示,美联储再次加息几乎没有什么好处,但负面影响却在不断增加。White指出,由于美联储释放了鹰派

发布时间: 2023-04-19 02:10
国内   2023-04-19

4月10日-4月16日游戏安全处罚公示

永久封禁详细名单(选定链接右键点击转到即可查看):https: www ssjj cn news 643e590948917361353e64bb html为了打造绿色公平的游戏环境,

发布时间: 2023-04-19 02:02
要闻   2023-04-19

《雪居之地》打雪仗打“崩”了,你需要更多的运气

《雪居之地》是由DeadpanGames、Gaziter开发Chucklefish发行的一款Roguelike策略卡牌游戏,游戏主要讲述的是这个世界被大雪吞噬了,在白茫茫一

发布时间: 2023-04-19 02:16
科技   2023-04-19

世界滚动:3d养宠物游戏APP定制开发(养宠物类小游戏APP定制开发)

3d养宠物游戏APP定制开发(养宠物类小游戏APP定制开发)字训随着科技的不断发展,越来越多的游戏类型涌现出来,其中养宠物游戏备受欢迎。而在近

发布时间: 2023-04-19 02:14
IT   2023-04-19

嫁给二婚男

1、《嫁给二婚男》是一部当代都市题材的电视剧,共30集。2、文章到此就分享结束,希望对大家有所帮助。

发布时间: 2023-04-19 01:49
国内   2023-04-19

新华文轩(00811):文轩投资拟认购不超过1.5亿元私募基金份额

新华文轩(00811)发布公告,公司全资子公司文轩投资有限公司拟认购中金启辰贰期(

发布时间: 2023-04-19 01:43
国内   2023-04-19

【速看料】嫁衣伤感的爱情

1、《嫁衣伤感的爱情》是见施创作的网络小说。2、发表于17K小说网。文章到此就分享结束,希望对大家有所帮助。

发布时间: 2023-04-19 01:53
要闻   2023-04-19

环球最资讯丨嫁给潜力股

1、《嫁给潜力股》是2012年群众出版社出版的图书。2、作者是徐竹。文章到此就分享结束,希望对大家有所帮助。

发布时间: 2023-04-19 01:44
科技   2023-04-19

天天资讯:58同城招聘网站官网_同城艺龙砍价怎么砍

你们好,最近小品发现有诸多的小伙伴们对于58同城招聘网站官网,同城艺龙砍价怎么砍这个问题都颇为感兴趣的,今天小活为大家梳

发布时间: 2023-04-19 01:38
IT   2023-04-19

天天快讯:ChatGPT 用于金融市场分析任务:可分析美联储讲话

ChatGPT+正在被应用于金融行业的学术研究中,初步结果显示过去几个月对其的高度期待是合理的。最近发表的两篇论文介绍了如何将+ChatGPT+用于金

发布时间: 2023-04-19 01:21
要闻   2023-04-19

环球关注:Fetcherr获得1050万美元战略投资

Fetcherr是一个以色列人工智能价格智能引擎提供商,该公司创建了一个基于深度学习的人工智能实时需求预测器和操作优化器。Fetcherr刚刚完成了

发布时间: 2023-04-19 01:33
科技   2023-04-19

环球要闻:理想汽车于鹤壁成立能源服务公司

天眼查App显示,近日,车和家(鹤壁)能源服务有限公司成立,法定代

发布时间: 2023-04-19 01:13
IT   2023-04-19