能否让AI像人脑一样思考生成图片

统一人工智能系统中的视觉理解和生成的挑战

多模态大型语言模型 (MLLM) 在视觉理解方面展现出了令人印象深刻的能力,但真正的 MLLM 应该在图像理解和生成方面都表现出色。目前应对这一双重挑战的方法通常依赖于每个任务的独立表征,这限制了它们处理交错生成或多轮编辑等复杂场景的能力。

能否让AI像人脑一样思考生成图片

该领域的研究人员面临着几个关键的设计选择。首先,是使用独立表示还是共享表示来进行理解和生成。独立的方法可能使用 CLIP 进行理解,使用 VQVAE 进行生成,但这种划分会使统一推理变得复杂。共享表示可确保两个任务相互补充,而不是相互冲突。

其次是连续和离散标记之间的选择。连续视觉特征保留了丰富的信息,但需要回归或扩散目标,这与驱动 LLM 的自回归范式不同。离散标记与 LLM 自然契合,但通常会引入量化误差。

最后,研究人员必须在像素级表示和语义表示之间做出选择。像素标记能够提供精细的细节,但难以与 LLM 对齐;而语义表示能够有效地捕捉高级概念,但可能会丢失图像细节。

DualToken 方法试图解决其中的一些挑战,但仍然面临着理解能力和生成能力之间的根本权衡。

介绍文本对齐表示(Tar)及其关键组件

文本对齐表示 (Tar) 提供了一种完全离散且语义化的方法,将视觉理解和生成统一在一个共享空间中。其核心是文本对齐标记器 (TA-Tok),它使用文本对齐的码本将图像转换为离散标记,该码本由 LLM 的词汇表初始化,并通过可学习的投影层进行调整以适应视觉。

这种方法无需依赖特定模态的设计,即可实现无缝的跨模态输入和输出。该系统在统一框架内支持高级多模态推理,提供比以往方法更优雅的解决方案。

为了平衡效率和细节,Tar 引入了尺度自适应池化和解码,允许模型根据任务调整标记长度:粗粒度标记用于高效生成,细粒度标记用于详细理解。

对于图像生成,Tar 采用了两个互补的生成式去标记器:一个用于离散 VAE 潜伏层的快速自回归 (AR) 模型,以及一个用于连续 VAE 潜伏层的基于扩散的模型。它们共同提供了在速度、兼容性和视觉质量之间平衡的灵活性。

除了标准的理解和生成任务之外,Tar 还通过图像到图像和文本到图像的转换等新的预训练任务改进了模态融合,从而提高了视觉理解和生成的性能。

能否让AI像人脑一样思考生成图片

文本到图像的生成结果,使用 Tar-7B 和 1024 像素去标记器。

先前的统一多模态建模方法

近期的MLLM模型展现出了强大的多模态理解能力,但将理解和生成结合起来仍然充满挑战。目前已有多种方法尝试实现这种整合,并取得了不同程度的成功。

Emu2 使 LLM 能够生成 CLIP 嵌入,并使用扩散模型将其解码为图像。Emu3 和 Chameleon 使用 VQVAE 作为视觉编码器和解码器,从而实现跨模态的统一的下一个 token 预测。然而,VQVAE 专注于像素依赖性,这限制了它们处理低级细节和高级语义的能力。

Show-o 和 Transfusion 将扩散目标集成到 LLM 中用于图像生成,但这种设计打破了自回归范式,并使两个任务的统一变得复杂。Janus 采用模块化方法,使用单独的编码器进行理解和生成,这可能会阻碍需要模态之间紧密集成的任务。

VILA-U 和UniToken同时使用像素重建和图文对齐损失来训练融合标记器,但难以在两个任务上达到最佳收敛效果。ILLUME 将矢量量化应用于语义视觉编码器,但仍然依赖连续特征进行理解,因此这两个任务需要单独的编码器。

相比之下,Tar 提出了一种完全离散、语义和共享的表示,真正统一了单个模型中的理解和生成。

剩余内容需解锁后查看

您需要付费解锁才能查看当前内容

VIP会员免费
已付费?登录刷新

Paragoger衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9876

(0)
上一篇 1天前
下一篇 2024-05-31 12:15 上午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn