快消息!谷歌用新AI超越自己:让Imagen能够指定生成对象 风格随意转换
给Imagen加上“指哪打哪”的能力,会变得有多强?只需上传3-5张 指定物体的照片,再用文字描述想要生成的背景、动作或表情,就能让指定物体“闪现”到你想要的场景中,动作表情也都栩栩如生。不止是动物,其他物体像墨镜、书包、花瓶,也都能做出几乎以假乱真的成品:
访问:
阿里云服务器精选特惠:1核1G云服务器低至0.9元/月
【资料图】
属于是发朋友圈也不会被别人看出破绽的那种。(手动狗头)
这个神奇的文字-图像生成模型名叫DreamBooth,是Google的最新研究成果,基于Imagen的基础上进行了调整,一经发布就在Twitter上引发热议。
有网友调侃:这简直是最先进的梗图生成器。
目前相关研究论文已上传至arXiv。
几张照片就能“环游世界”
在介绍原理前,让我们先来看看DreamBooth的各种能力,包括换景、指定动作表情服饰、更迭风格等。
如果你是个“铲屎官”,有了这个模型的“ 换景能力”,就能足不出户送自家狗子走出家门,凡尔赛宫里、富士山脚下……通通不在话下。
△光照也比较自然
不仅如此,宠物的 动作和表情也都能随意指定,属实是把“一句话P图”的细节拿捏到位了。
除了上面的“基操”以外,DreamBooth甚至还能更换各种照片风格,也就是所谓的“加滤镜”。
例如,各种“世界名画”画风、各种视角的狗子,简直不要太艺术:
至于给它们 加上装饰?各种cosplay的小道具,也是小菜一碟。
除此之外,无论是更换颜色:
还是更魔幻一点,更换物种,这只AI也都能做到。
那么,如此有趣的效果背后的原理是什么呢?
给输入加个“特殊标识符”
研究人员做了个对比,相较于其他大规模文本-图像模型如DALL-E2、Imagen等,只有采用DreamBooth的方法,才能做到对输入图像的忠实还原。
如下图所示,输入3张右边表盘上画着黄色“3”的小闹表,其中DreamBooth生成的图像完美保留了钟表的所有细节,但DALL-E2和Imagen几次生成的钟都与原来的钟“有那么点差异”。
△李逵和“李鬼”
而这也正是DreamBooth最大的特点—— 个性化表达。
用户可以给定3-5张自己随意拍摄的某一物体的图片,就能得到不同背景下的该物体的新颖再现,同时又保留了其关键特征。
当然,作者也表示,这种方法并不局限于某个模型,如果DALL·E2经过一些调整,同样能实现这样的功能。
具体到方法上,DreamBooth采用了给物体加上“ 特殊标识符”的方法。
也就是说,原本图像生成模型收到的指令只是一类物体,例如[cat]、[dog]等,但现在DreamBooth会在这类物体前加上一个特殊标识符,变成[V][物体类别]。
以下图为例,将用户上传的三张狗子照片和相应的类名(如“狗”)作为输入信息,得到一个经过微调的文本-图像扩散模型。
该扩散模型用“a [V] dog”来特指用户上传图片中的狗子,再把其带入文字描述中,生成特定的图像,其中[V]就是那个特殊标识符。
至于为什么不直接用[V]来指代整个[特定物体]?
作者表示,受限于输入照片的数量,模型无法很好地学习到照片中物体的整体特征,反而可能出现过拟合。
因此这里采用了微调的思路,整体上仍然基于AI已经学到的[物体类别]特征,再用[V]学到的特殊特征来修饰它。
以生成一只白色的狗为例,这里模型会通过[V]来学习狗的颜色(白色)、体型等个性化细节,加上模型在[狗]这个大的类别中学到的狗的共性,就能生成更多合理又不失个性的白狗的照片。
为了训练这个微调的文本-图像扩散模型,研究人员首先根据给定的文本描述生成低分辨率图像,这时生成的图像中狗子的形象是随机的。
然后再应用超分辨率的扩散模型进行替换,把随机图像换成用户上传的特定狗子。
研究团队
DreamBooth的研究团队来自Google,第一作者是Nataniel Ruiz。
Nataniel Ruiz是波士顿大学图像和视频计算组的四年级博士生,目前在Google实习。主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟。
推荐
-
SpaceX用户发出通知 将根据当地市场状况下调费用最多可打五折
埃隆・马斯克(Elon Musk)旗下太空公司 SpaceX 已经向世界各地的太空互联网服务星链用户发出通知,宣...
来源:网易科技 -
放弃老式登录方式 Facebook母公司正式推出Meta账户
社交网络巨头 Meta正式推出了所谓的 Meta 账户和 Meta Horizon 个人资料。它们将被用来取代曾经用...
来源:网易科技 -
今年全球半导体资本支出将达1855亿美元 再次实现两位数增长
据知名半导体分析机构 IC Insights 发布的最新数据,显示 2020-2022 这三年,将是自 1993-1995 ...
来源:爱集微 -
-
-
-
-
-
-
直播更多》
-
赋能农业现代化 5G为乡村振兴筑基注智
数字乡村既是乡村振兴的战略方向,也是...
-
赋能农业现代化 5G为乡村振兴筑基注智
数字乡村既是乡村振兴的战略方向,也是...
-
安徽大力推进千兆光纤网络发展 500M及以上宽带用户达到363万户
今年以来,为支撑数字安徽建设,助力加...
-
抢先布局先进计算产业发展新赛道 晋阳湖数字经济发展峰会先进计算发展论坛近日成功举办
日前,晋阳湖·数字经济发展峰会先进计...
-
四川省用电需求最高负荷已跃升至6500万千瓦 同比增长25%
近期,因极端高温天气等原因,四川工业...
-
印尼希望特斯拉在当地生产电动汽车 并愿意花时间说服马斯克
印尼希望特斯拉公司能在该国生产电动汽...
资讯更多》
焦点
- T-Mobile因泄密损失5亿美元 其中3.5亿美元将用于用户赔偿
- 数字政府市场规模保持高速增长 我国数字政府建设跑出“加速度”
- 中国信息通信研究院发布《中国存力白皮书》 梳理全球存储产业发展现状
- 取消读秒设计 “新版”红绿灯被骂上热搜
- 电动汽车被排除出《通胀削减法案》 韩国政府通过多个渠道向美方表示担忧
- 发挥央企“稳定器”作用 安徽电信翼支付平台助力提振消费
- 新版《河北省中小企业促进条例》审议通过 将于2022年10月1日起实施
- 多地电力供需紧张发布限电通知 四川已对工业用户开启限电模式
- 预警处置各类异常号码 数智警察为反诈工作再添生力军
- 华上光电第2季财务报告净值为负数 即将面临中国台湾证券交易所营业细则规定下市