谷歌发布最强文生图大模型 Imagen 2，有哪些技术亮点？

ues6858 · 发表于 2023-12-22 08:53:48|来自：北京

卷疯了卷疯了，谷歌刚刚放出了文生图AI模型的巅峰之作Imagen 2，实测效果逼真细腻，生成的美女图仿佛真人照片，对于提示的还原程度已经打败了DALL·E 3和Midjourney！最强文生图大模型这是要易主了？
虽然圣诞节已经临近，但谷歌还在卷个不停——号称DALL·E 3最强竞品的文生图模型Imagen 2，终于重磅上线了。
刚用Gemini和OpenAI卷完GPT-4，立马又放出Imagen 2来卷DALL·E 3了，2023年底的「卷王」称号，谷歌是实至名归。

不仅手指逼真，而且拿筷子的姿势也很标准
可以说，Imagen 2是目前文本转图像技术的巅峰之作，已经突破了AI生图的界限。
在机器学习算法强大功能的加持下，Imagen 2可以将文本描述转换为生动清晰的高分辨率图像。
Imagen 2最与众不同之处在于，它能够以惊人的准确性，理解复杂抽象的概念，然后把这个概念可视化，细腻之程度令人惊叹！

Imagen 2的核心，还是复杂的神经网络架构。经过微调的Transformer模型，在文本理解和图像合成上，都表现出了无与伦比的性能。
现在，在文生图领域，谷歌又竖立了新的标杆。
用自然语言就能生图的模型，又多了一个

mingren119 · 发表于 2023-12-22 08:54:20|来自：北京

谷歌最近真的是接连放大招。

先是前几天祭出大杀器Gemini，发布会上的一系列Demo展示让人眼花缭乱。短短一周时间谷歌又发布Imagen 2，真是好消息不断啊！
Imagen 2是基于此前谷歌就推出的文本到图像扩散模型Imagen的升级，不得不提一嘴，Imagen的生成结果可谓是天马行空、奇幻又逼真。

Imagen 2的核心，还是复杂的神经网络架构。经过微调的Transformer模型，在文本理解和图像合成上，都表现出了无与伦比的性能。
· 一键逼真还原图像

以往的「文本到图像」模型多少可能都会在细节质量和准确性上出现较大的差异。
为了创建更高质量和更准确的图像，Imagen 2的训练数据集中添加了更多描述，帮助Imagen 2学习不同的标题风格，并更好地理解广泛的用户提示。
这种图像标题配对，就有助于Imagen 2更好地理解图像和文字之间的关系，大大提高了它对上下文和细微差别的理解。

比如官网展示的：美国作家Phillis Wheatley《晚间赞美诗》中的一句话「溪流潺潺，鸟儿啁啾，空中飘荡着它们混合的音乐」。

· 更懂人体美学

懂得都懂，一直以来AI生成人物的手指都不免被人吐槽。这次Imagen 2的数据集和模型进步，在许多领域取得了改进。
其中就包括渲染逼真的手部和人脸，以及保持图像不受干扰的视觉伪影。
同时，谷歌DeepMind根据人类对光线、取景、曝光、清晰度等特质的偏好，训练了一个专门的「图像美学模型」。
Imagen2的扩散技术提供了高度的灵活性，使得更容易控制和调整图像的风格。通过提供参考风格图像并结合文本提示，可以训练Imagen 2生成遵循相同风格的新图像。

· 更强的「修复」和「扩图」

Imagen 2还支持图像编辑功能，如修复（inpainting）和扩图（outpainting）。通过提供参考图像和图像掩码，我们可以用inpainting技术直接在原始图像中生成新内容。
在下面这幅原始图中，只要输入「绿色墙上有一个架子，架子上放着几本书和花瓶」，对应内容就在原图中生成了！
新内容毫不突兀，完美融入原图，浑然天成。

另外，我们还可以使用outpainting功能，给原始图像扩图。夕阳下非洲大草原上长颈鹿和斑马的双人大头贴，一下子就扩成了全身照。

和Gemini一样，目前也仅面向开发者的API上线，通过Google Cloud Vertex AI中的Imagen API 就可以使用Imagen 2。
也就是说咱们普通用户暂时还没有通道可以使用Imagen 2，多少还有点扫兴了哈。问题不大！我最近用了几款AI文生图工具也还挺顺手的，一起分享给大家。
无界AI

国内比较领先的AIGC内容创作平台，它不只能AI创作，还集合了AI图库、AI绘画创作、AI广场等为一体的综合AI服务工具。
可玩度比较高，例如可以选择不同的模型创作绘画，还能进一步的选择模型主题，有日漫、CG、油画等等，多种功能设置，上手体验好~

使用基本没有门槛，有文字生图和以图生图这两种基础模式，还提供了大量特色的AI模型，各类二次元风格，历史著名画家，现代数字艺术都能融合创作。

抠图改图王

一款AI全自动修图软件，同时也是一个素材作图工具，不仅提供各种AI修图功能，而且还内置了多种素材可供制作同款图片/海报。
它还有现在非常火爆的AI扩图功能，首页进入之后，就可以看到【AI扩图】功能。操作玩法也非常简单，只需要上传图片，然后选择扩图比例，等待片刻即可出片！

除此之外，它还提供了AI抠图的操作，上传图片即可一键快速更换图片背景，无需手动抠图；软件还有多种便捷的图片编辑工具，多种功能集于一体，非常实用~

WHEE

它是美图推出的AI绘画产品，准确来讲它是一个AI作图网站，网站界面简洁，操作起来非常容易。即使你是小白，也能轻松上手。
平台汇集了AI作品展示、AI创作、AI风格模型，以及提供了创作提示词库。
AI绘画创作可选择文生图、图生图两种生成模式，出图质量也很高，关键是它还能自己训练风格模式，想要生成什么效果自己把控~

通义万相

通义系列上线了的通义万相这个AI绘画创作大模型，主要的功能有文生图、相似图生成以及风格迁移。
它可以对配色、布局、风格等图像设计元素进行拆解和组合，提供高度可控性和极大自由度的图像生成效果。入门级的AI画图，新手画着玩非常合适。

除了绘图能力，它还有很多创作模块，例如这个虚拟模特，它可以借助AI生成一个万全虚拟的模特，用来展示画面中指定的商品，对于电商行业的用户来说可以提供多种个性化服务。

以上就是话题的全部分享，话不多说啦~有用的记得要码住，也可以关注一下 @银河君主页下次不迷路

gurucn · 发表于 2023-12-22 08:54:36|来自：北京

Google的文生图应用，首页是让你share，分享到各个社交媒体。

OpenAI的Dalle3，话不多说，直接一个论文+使用入口。

Google最近怎么老做PPT宣传，文生图又不是LLM，效果好点儿差点全凭主观感受，说实话，比Dalle3生成的图片好的我觉得就有很多，midjourney，还有很多stablediffusion做出来的丝毫不差，Dalle3是因为接入了ChatGPT方便一些而已。
是骡子是马得拉出来溜溜。
放一堆PPT，就宣称自己效果如何如何，极其的没有诚意。

九命黑猫 · 发表于 2023-12-22 08:54:54|来自：北京

虽然很强，但是谷歌它不给用啊。现在只有一小部分被批准的用户才能通过Vertex AI平台用到Imagen 2的文生图功能。

从谷歌放出的演示来看，Imagen 2的能力确实挺强的，尤其是人像的部分，感觉不输Midjourney，比OpenAI的DALL·E 3 强了不知多少倍。（不得不吐槽一句DALL·E的人像确实差劲）

Imagen 2

Imagen 2值得特别关注的几个亮点。
1、自定义修改图像中的某个区域。
通过提供参考图像和图像蒙版，用户可以使用被称为inpainting的技术直接在原始图像中生成新内容，或者通过outpainting将原始图像内容进行扩展。

inpainting

outpainting

2、更灵活的图像风格控制。
简单理解为垫图功能更好用，官方称之为Fluid style conditioning，Imagen 2 基于的Diffusion技术提供了很高的灵活性，可以让控制和调整图像的风格变得更加容易。通过提供参考风格图像和相应的文本prompt，可以使 Imagen 2 生成具有相同风格的新图像。

3、给AI生成的图像打水印——SynthID
这个技术（SynthID）直接就介绍过了，现在被集成到了Imagen 2中。
它是谷歌云和DeepMind发布的用于给AI生成图像打水印的的工具，但是这种“水印”对人类来说是不可见的，而只有使用SynthID工具才能识别和检测到。
SynthID的基本原理是将数字水印直接嵌入图像的像素中，使其无法被人眼察觉，但可以用AI工具检测和识别。它采用的技术不会影响图像质量，并且即使在添加滤镜、更改颜色以及使用各种有损压缩方案（最常用于 JPEG）进行保存等修改之后，水印仍可被检测到。

也就是说以后AI生成的图片可以直接用水印技术检测出来，相当于为AI生成内容的安全性加了一道保障。
4、最后看几个Imagen 2（Google）和DALL·E（OpenAI）的对比。

prompt: a jellyfish on a dark blue background

Imagen 2

DALL·E

prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile

Imagen 2

DALL·E

A cup of strawberry yogurt with the word &#34;Delicious&#34;written on its side, sitting on a wooden tabletop. Next to the cup ofyogurt is a plate with toast and a glass of orange iuice.

Imagen 2

DALL·E

最后，还是那句话，AI工具最大的加分项是给人用，说得再好别人用不上，那么对于用户来说，它就是高级的玩具，而不是有用的工具。给大家推荐一个国内能方面使用的ChatGPT，集合了GPT4、ChatPDF，以及SD绘图等多个工具，一站解决。

KU123456789 · 发表于 2023-12-22 08:55:41|来自：北京

谷歌 Imagen 2 [1]的最强文生图是谁封的…谷歌内部吗？下周 Midjourney 要发布 v6 了，日常使用有 ChatGPT plus 带的 Dall·E 3，Meta 也发布了 imagine[2]，关键是这几个产品都面向用户直接能用，我也看不出谷歌有什么突出的优势…说实话我会更期待 Midjourney v6 的表现。

而且谷歌目前是虚空发布，反正不让用，大家也只能拿官方宣发的 blog 吹（说是 API 可以用，但我自己没找到用的途径，如果有人知道能用上 Imagen 2 可以评论区说下，咱也不明白谷歌这么好的技术为啥不直接做个文生图的网站，要拐着弯用 API 调用）。

考虑到官方发布 cherry-pick 的传统，我不敢抱太大的希望…
<hr/>谷歌这次主要宣传的几个特点[3]：

高质量图像：Imagen 2 可以通过改进的图像+文本理解技术和多种新型训练和建模技术实现准确、高质量的逼真图片输出。

文本渲染支持：文生图技术通常难以正确渲染文本（确实，Dall·E 3表现也一般，而且不支持中文）。例如，如果模型被提示生成带有特定单词或短语的对象的图片，确保正确的短语是输出图像的一部分可能是具有挑战性的。Imagen 2可以帮助解决这个问题，这可以为组织的品牌和信息传达提供更深层次的控制。

Logo生成：Imagen 2可以为企业、品牌和产品生成各种创意和逼真的徽标，包括徽章、字母标记和抽象logo等。它还可以将这些logo叠加到产品、服装、商业卡片和其他表面上。

标题和问答：Imagen 2的增强图像理解能力可使客户创建具有描述性的长篇标题，并获得有关图像内元素的详细答案。
多语种提示：除了英语，Imagen 2 还支持六种其他语言（中文，印地语，日语，韩语，葡萄牙语，西班牙语）进行预览，计划在2024年初发布更多语言。
安全性：Imagen 2包含内置的安全预防措施，以确保生成的图像与Google的负责任AI原则相一致。例如，Imagen 2与我们的实验性数字水印服务集成，由Google DeepMind的SynthID提供支持，允许列入白名单的客户生成不可见水印，并验证Imagen生成的图像。Imagen 2还包括全面的安全过滤器，以帮助防止生成潜在有害内容。

JCRen.net · 发表于 2023-12-22 08:56:23|来自：北京

分几个部分来说吧
1. 概述

Google Imagen 2是一种先进的文本到图像的AI技术，它可以根据自然语言的输入，生成高质量、高分辨率、逼真的图像。Google Imagen 2是目前最先进的文本到图像的AI技术之一，它在多个方面超越了之前的技术，例如：图像质量、文本渲染、多语言支持、视觉问答等。Imagen 2的图像质量达到了前所未有的水平，它可以生成高达1024×1024像素的高分辨率图像，具有很高的逼真度和细节度。Imagen 2的文本渲染能力也很强，它可以根据文本输入，生成包含正确文字的图像，例如：公司或产品的logo，或者在图像上添加文字。Imagen 2还支持多种语言的文本输入，除了英语，还包括中文、日语、韩语、印地语、西班牙语和葡萄牙语。Imagen 2的视觉问答功能也很有趣，它可以根据图像生成描述性的长文本，或者回答关于图像细节的问题。其应用场景也很多，比如创意设计、品牌营销、教育娱乐等

Prompt: Small canvas oil painting of an orange on a chopping board. Light is passing through orange segments, casting an orange light across part of the chopping board. There is a blue and white cloth in the background. Caustics, bounce light, expressive brush strokesImproved ima

2. 技术

Google Imagen 2的技术架构主要包括两个部分：一个大型的Transformer语言模型，用于理解语言输入，和一个基于扩散模型的图像生成模型，用于创建图像输出。深入学习技术，请参阅下面这些论文：
学习ChatGPT和扩散模型Diffusion的基础架构Transformer，看完这些论文就够了2.1 语言模型

据说是T5-XXL，有24层的编码器，每层有1024个隐藏单元，总共有30亿个参数。Imagen 2将文本输入通过T5-XXL编码器，得到一个256维的文本嵌入向量，作为图像生成模型的输入，用于理解文本输入；扩散模型是一种基于马尔可夫链的概率生成模型，它可以从高维的数据分布中采样出高质量的样本，例如：图像、音频、视频等。
2.2 扩散模型

扩散模型的基本思想是，将一个目标数据（例如：一张图像）逐渐加入噪声，直到变成一个随机的数据（例如：一张白噪声图像），然后再逐步去除噪声，恢复成目标数据。扩散模型的训练过程是学习如何在每一步加入或去除合适的噪声，使得最终的样本与目标数据的分布尽可能接近。Imagen 2使用了一个基于U-Net的扩散模型，它有12层的编码器和解码器，每层有256个隐藏单元，总共有1.5亿个参数。Imagen 2将文本嵌入向量和一个随机的图像作为扩散模型的输入，然后通过反向的扩散过程，生成一个与文本匹配的图像。

Prompt: “Soft purl the streams, the birds renew their notes, And through the air their mingled music floats.”

3. Fluid style conditioning

magen 2 基于扩散的技术提供了高度的灵活性，使得控制和调整图像的风格变得更加容易。通过提供参考风格图像与文本提示相结合，我们可以调节 Imagen 2 以生成遵循相同风格的新图像。

4. 如何使用

Imagen 2是Google Cloud的Vertex AI平台上的一项服务，它于2023年12月正式发布，是Imagen系列的最新版本。
5. 点评

“Imagen 2是一种非常强大的AI技术，它可以根据任何文本生成逼真的图像，我用它来为我的网站和社交媒体创建了很多有趣和吸引人的图像，效果很好，我很喜欢。”
“Imagen 2的文本渲染功能很棒，它可以在图像上生成正确的文字，我用它来制作了一些logo和海报，很方便，也很有创意。”
“Imagen 2的多语言支持很有用，它可以根据不同语言的文本生成不同语言的图像，我用它来为我的国际客户提供了一些定制的图像，他们都很满意。”
“Imagen 2的图像质量很高，它可以生成高分辨率的图像，具有很高的逼真度和细节度，我用它来打印了一些图像，效果很好，我很喜欢。”
“Imagen 2的视觉问答功能很有趣，它可以根据图像生成描述性的长文本，或者回答关于图像细节的问题，我用它来学习了一些新的知识，也玩了一些有趣的游戏。”
“Imagen 2有时候会生成一些重复或者不相关的图像，我希望它能提高图像的多样性和创新性，让我看到更多的惊喜。”
“Imagen 2有时候会无法理解一些复杂或者模糊的文本，我希望它能提高文本的理解和处理能力，让我输入更多的内容和细节。”

[其他] 谷歌发布最强文生图大模型 Imagen 2，有哪些技术亮点？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家