[其他] 谷歌发布最强文生图大模型 Imagen 2,有哪些技术亮点?

[复制链接]
ues6858 发表于 2023-12-22 08:53:48|来自:北京 | 显示全部楼层 |阅读模式
卷疯了卷疯了,谷歌刚刚放出了文生图AI模型的巅峰之作Imagen 2,实测效果逼真细腻,生成的美女图仿佛真人照片,对于提示的还原程度已经打败了DALL·E 3和Midjourney!最强文生图大模型这是要易主了?
虽然圣诞节已经临近,但谷歌还在卷个不停——号称DALL·E 3最强竞品的文生图模型Imagen 2,终于重磅上线了。
刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagen 2来卷DALL·E 3了,2023年底的「卷王」称号,谷歌是实至名归。



不仅手指逼真,而且拿筷子的姿势也很标准
可以说,Imagen 2是目前文本转图像技术的巅峰之作,已经突破了AI生图的界限。
在机器学习算法强大功能的加持下,Imagen 2可以将文本描述转换为生动清晰的高分辨率图像。
Imagen 2最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!



Imagen 2的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。
现在,在文生图领域,谷歌又竖立了新的标杆。
用自然语言就能生图的模型,又多了一个
全部回复5 显示全部楼层
mingren119 发表于 2023-12-22 08:54:20|来自:北京 | 显示全部楼层
谷歌最近真的是接连放大招。

先是前几天祭出大杀器Gemini,发布会上的一系列Demo展示让人眼花缭乱。短短一周时间谷歌又发布Imagen 2,真是好消息不断啊!
Imagen 2是基于此前谷歌就推出的文本到图像扩散模型Imagen的升级,不得不提一嘴,Imagen的生成结果可谓是天马行空、奇幻又逼真。


Imagen 2的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。
· 一键逼真还原图像

以往的「文本到图像」模型多少可能都会在细节质量和准确性上出现较大的差异。
为了创建更高质量和更准确的图像,Imagen 2的训练数据集中添加了更多描述,帮助Imagen 2学习不同的标题风格,并更好地理解广泛的用户提示。
这种图像标题配对,就有助于Imagen 2更好地理解图像和文字之间的关系,大大提高了它对上下文和细微差别的理解。
比如官网展示的:美国作家Phillis Wheatley《晚间赞美 诗》中的一句话「溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐」。


· 更懂人体美学

懂得都懂,一直以来AI生成人物的手指都不免被人吐槽。这次Imagen 2的数据集和模型进步,在许多领域取得了改进。
其中就包括渲染逼真的手部和人脸,以及保持图像不受干扰的视觉伪影。
同时,谷歌DeepMind根据人类对光线、取景、曝光、清晰度等特质的偏好,训练了一个专门的「图像美学模型」。
Imagen2的扩散技术提供了高度的灵活性,使得更容易控制和调整图像的风格。通过提供参考风格图像并结合文本提示,可以训练Imagen 2生成遵循相同风格的新图像。


· 更强的「修复」和「扩图」

Imagen 2还支持图像编辑功能,如修复(inpainting)和扩图(outpainting)。通过提供参考图像和图像掩码,我们可以用inpainting技术直接在原始图像中生成新内容。
在下面这幅原始图中,只要输入「绿色墙上有一个架子,架子上放着几本书和花瓶」,对应内容就在原图中生成了!
新内容毫不突兀,完美融入原图,浑然天成。


另外,我们还可以使用outpainting功能,给原始图像扩图。夕阳下非洲大草原上长颈鹿和斑马的双人大头贴,一下子就扩成了全身照。


和Gemini一样,目前也仅面向开发者的API上线,通过Google Cloud Vertex AI中的Imagen API 就可以使用Imagen 2。
也就是说咱们普通用户暂时还没有通道可以使用Imagen 2,多少还有点扫兴了哈。问题不大!我最近用了几款AI文生图工具也还挺顺手的,一起分享给大家。
无界AI

国内比较领先的AIGC内容创作平台,它不只能AI创作,还集合了AI图库、AI绘画创作、AI广场等为一体的综合AI服务工具。
可玩度比较高,例如可以选择不同的模型创作绘画,还能进一步的选择模型主题,有日漫、CG、油画等等,多种功能设置,上手体验好~


使用基本没有门槛,有文字生图和以图生图这两种基础模式,还提供了大量特色的AI模型,各类二次元风格,历史著名画家,现代数字艺术都能融合创作。


抠图改图王

一款AI全自动修图软件,同时也是一个素材作图工具,不仅提供各种AI修图功能,而且还内置了多种素材可供制作同款图片/海报。
它还有现在非常火爆的AI扩图功能,首页进入之后,就可以看到【AI扩图】功能。操作玩法也非常简单,只需要上传图片,然后选择扩图比例,等待片刻即可出片!


除此之外,它还提供了AI抠图的操作,上传图片即可一键快速更换图片背景,无需手动抠图;软件还有多种便捷的图片编辑工具,多种功能集于一体,非常实用~


WHEE

它是美图推出的AI绘画产品,准确来讲它是一个AI作图网站,网站界面简洁,操作起来非常容易。即使你是小白,也能轻松上手。
平台汇集了AI作品展示、AI创作、AI风格模型,以及提供了创作提示词库。
AI绘画创作可选择文生图、图生图两种生成模式,出图质量也很高,关键是它还能自己训练风格模式,想要生成什么效果自己把控~


通义万相

通义系列上线了的通义万相这个AI绘画创作大模型,主要的功能有文生图、相似图生成以及风格迁移。
它可以对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果。入门级的AI画图,新手画着玩非常合适。


除了绘图能力,它还有很多创作模块,例如这个虚拟模特,它可以借助AI生成一个万全虚拟的模特,用来展示画面中指定的商品,对于电商行业的用户来说可以提供多种个性化服务。


以上就是话题的全部分享,话不多说啦~有用的记得要码住,也可以关注一下 @银河君 主页下次不迷路
gurucn 发表于 2023-12-22 08:54:36|来自:北京 | 显示全部楼层
Google的文生图应用,首页是让你share,分享到各个社交媒体。


OpenAI的Dalle3,话不多说,直接一个论文+使用入口。


Google最近怎么老做PPT宣传,文生图又不是LLM,效果好点儿差点全凭主观感受,说实话,比Dalle3生成的图片好的我觉得就有很多,midjourney,还有很多stablediffusion做出来的丝毫不差,Dalle3是因为接入了ChatGPT方便一些而已。
是骡子是马得拉出来溜溜。
放一堆PPT,就宣称自己效果如何如何,极其的没有诚意。
九命黑猫 发表于 2023-12-22 08:54:54|来自:北京 | 显示全部楼层
虽然很强,但是谷歌它不给用啊。现在只有一小部分被批准的用户才能通过Vertex AI平台用到Imagen 2的文生图功能。



从谷歌放出的演示来看,Imagen 2的能力确实挺强的,尤其是人像的部分,感觉不输Midjourney,比OpenAI的DALL·E 3 强了不知多少倍。(不得不吐槽一句DALL·E的人像确实差劲)



Imagen 2

Imagen 2值得特别关注的几个亮点。
1、自定义修改图像中的某个区域。
通过提供参考图像和图像蒙版,用户可以使用被称为inpainting的技术直接在原始图像中生成新内容,或者通过outpainting将原始图像内容进行扩展。



inpainting



outpainting

2、更灵活的图像风格控制。
简单理解为垫图功能更好用,官方称之为Fluid style conditioning,Imagen 2 基于的Diffusion技术提供了很高的灵活性,可以让控制和调整图像的风格变得更加容易。通过提供参考风格图像和相应的文本prompt,可以使 Imagen 2 生成具有相同风格的新图像。


3、给AI生成的图像打水印——SynthID
这个技术(SynthID)直接就介绍过了,现在被集成到了Imagen 2中。
它是谷歌云和DeepMind发布的用于给AI生成图像打水印的的工具,但是这种“水印”对人类来说是不可见的,而只有使用SynthID工具才能识别和检测到。
SynthID的基本原理是将数字水印直接嵌入图像的像素中,使其无法被人眼察觉,但可以用AI工具检测和识别。它采用的技术不会影响图像质量,并且即使在添加滤镜、更改颜色以及使用各种有损压缩方案(最常用于 JPEG)进行保存等修改之后,水印仍可被检测到。


也就是说以后AI生成的图片可以直接用水印技术检测出来,相当于为AI生成内容的安全性加了一道保障。
4、最后看几个Imagen 2(Google)和DALL·E(OpenAI)的对比。
prompt: a jellyfish on a dark blue background



Imagen 2



DALL·E

prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile



Imagen 2



DALL·E

A cup of strawberry yogurt with the word "Delicious"written on its side, sitting on a wooden tabletop. Next to the cup ofyogurt is a plate with toast and a glass of orange iuice.



Imagen 2



DALL·E

最后,还是那句话,AI工具最大的加分项是给人用,说得再好别人用不上,那么对于用户来说,它就是高级的玩具,而不是有用的工具。给大家推荐一个国内能方面使用的ChatGPT,集合了GPT4、ChatPDF,以及SD绘图等多个工具,一站解决。
KU123456789 发表于 2023-12-22 08:55:41|来自:北京 | 显示全部楼层
谷歌 Imagen 2 [1]的最强文生图是谁封的…谷歌内部吗?下周 Midjourney 要发布 v6 了,日常使用有 ChatGPT plus 带的 Dall·E 3,Meta 也发布了 imagine[2],关键是这几个产品都面向用户直接能用,我也看不出谷歌有什么突出的优势…说实话我会更期待 Midjourney v6 的表现。


而且谷歌目前是虚空发布,反正不让用,大家也只能拿官方宣发的 blog 吹(说是 API 可以用,但我自己没找到用的途径,如果有人知道能用上 Imagen 2 可以评论区说下,咱也不明白谷歌这么好的技术为啥不直接做个文生图的网站,要拐着弯用 API 调用)。


考虑到官方发布 cherry-pick 的传统,我不敢抱太大的希望…
<hr/>谷歌这次主要宣传的几个特点[3]:

  • 高质量图像:Imagen 2 可以通过改进的图像+文本理解技术和多种新型训练和建模技术实现准确、高质量的逼真图片输出。



  • 文本渲染支持:文生图技术通常难以正确渲染文本(确实,Dall·E 3表现也一般,而且不支持中文)。例如,如果模型被提示生成带有特定单词或短语的对象的图片,确保正确的短语是输出图像的一部分可能是具有挑战性的。Imagen 2可以帮助解决这个问题,这可以为组织的品牌和信息传达提供更深层次的控制。



  • Logo生成:Imagen 2可以为企业、品牌和产品生成各种创意和逼真的徽标,包括徽章、字母标记和抽象logo等。它还可以将这些logo叠加到产品、服装、商业卡片和其他表面上。



  • 标题和问答:Imagen 2的增强图像理解能力可使客户创建具有描述性的长篇标题,并获得有关图像内元素的详细答案。
  • 多语种提示:除了英语,Imagen 2 还支持六种其他语言 (中文,印地语,日语,韩语,葡萄牙语,西班牙语)进行预览,计划在2024年初发布更多语言。
  • 安全性:Imagen 2包含内置的安全预防措施,以确保生成的图像与Google的负责任AI原则相一致。例如,Imagen 2与我们的实验性数字水印服务集成,由Google DeepMind的SynthID提供支持,允许列入白名单的客户生成不可见水印,并验证Imagen生成的图像。Imagen 2还包括全面的安全过滤器,以帮助防止生成潜在有害内容。
JCRen.net 发表于 2023-12-22 08:56:23|来自:北京 | 显示全部楼层
分几个部分来说吧
1. 概述

Google Imagen 2是一种先进的文本到图像的AI技术,它可以根据自然语言的输入,生成高质量、高分辨率、逼真的图像。Google Imagen 2是目前最先进的文本到图像的AI技术之一,它在多个方面超越了之前的技术,例如:图像质量、文本渲染、多语言支持、视觉问答等。Imagen 2的图像质量达到了前所未有的水平,它可以生成高达1024×1024像素的高分辨率图像,具有很高的逼真度和细节度。Imagen 2的文本渲染能力也很强,它可以根据文本输入,生成包含正确文字的图像,例如:公司或产品的logo,或者在图像上添加文字。Imagen 2还支持多种语言的文本输入,除了英语,还包括中文、日语、韩语、印地语、西班牙语和葡萄牙语。Imagen 2的视觉问答功能也很有趣,它可以根据图像生成描述性的长文本,或者回答关于图像细节的问题。其应用场景也很多,比如创意设计、品牌营销、教育娱乐等



Prompt: Small canvas oil painting of an orange on a chopping board. Light is passing through orange segments, casting an orange light across part of the chopping board. There is a blue and white cloth in the background. Caustics, bounce light, expressive brush strokesImproved ima

2. 技术

Google Imagen 2的技术架构主要包括两个部分:一个大型的Transformer语言模型,用于理解语言输入,和一个基于扩散模型的图像生成模型,用于创建图像输出。深入学习技术,请参阅下面这些论文:
学习ChatGPT和扩散模型Diffusion的基础架构Transformer,看完这些论文就够了2.1 语言模型

据说是T5-XXL,有24层的编码器,每层有1024个隐藏单元,总共有30亿个参数。Imagen 2将文本输入通过T5-XXL编码器,得到一个256维的文本嵌入向量,作为图像生成模型的输入,用于理解文本输入;扩散模型是一种基于马尔可夫链的概率生成模型,它可以从高维的数据分布中采样出高质量的样本,例如:图像、音频、视频等。
2.2 扩散模型

扩散模型的基本思想是,将一个目标数据(例如:一张图像)逐渐加入噪声,直到变成一个随机的数据(例如:一张白噪声图像),然后再逐步去除噪声,恢复成目标数据。扩散模型的训练过程是学习如何在每一步加入或去除合适的噪声,使得最终的样本与目标数据的分布尽可能接近。Imagen 2使用了一个基于U-Net的扩散模型,它有12层的编码器和解码器,每层有256个隐藏单元,总共有1.5亿个参数。Imagen 2将文本嵌入向量和一个随机的图像作为扩散模型的输入,然后通过反向的扩散过程,生成一个与文本匹配的图像。



Prompt: “Soft purl the streams, the birds renew their notes, And through the air their mingled music floats.”

3. Fluid style conditioning

magen 2 基于扩散的技术提供了高度的灵活性,使得控制和调整图像的风格变得更加容易。通过提供参考风格图像与文本提示相结合,我们可以调节 Imagen 2 以生成遵循相同风格的新图像。



4. 如何使用

Imagen 2是Google Cloud的Vertex AI平台上的一项服务,它于2023年12月正式发布,是Imagen系列的最新版本。
5. 点评


  • “Imagen 2是一种非常强大的AI技术,它可以根据任何文本生成逼真的图像,我用它来为我的网站和社交媒体创建了很多有趣和吸引人的图像,效果很好,我很喜欢。”
  • “Imagen 2的文本渲染功能很棒,它可以在图像上生成正确的文字,我用它来制作了一些logo和海报,很方便,也很有创意。”
  • “Imagen 2的多语言支持很有用,它可以根据不同语言的文本生成不同语言的图像,我用它来为我的国际客户提供了一些定制的图像,他们都很满意。”
  • “Imagen 2的图像质量很高,它可以生成高分辨率的图像,具有很高的逼真度和细节度,我用它来打印了一些图像,效果很好,我很喜欢。”
  • “Imagen 2的视觉问答功能很有趣,它可以根据图像生成描述性的长文本,或者回答关于图像细节的问题,我用它来学习了一些新的知识,也玩了一些有趣的游戏。”
  • “Imagen 2有时候会生成一些重复或者不相关的图像,我希望它能提高图像的多样性和创新性,让我看到更多的惊喜。”
  • “Imagen 2有时候会无法理解一些复杂或者模糊的文本,我希望它能提高文本的理解和处理能力,让我输入更多的内容和细节。”

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则