VAR:自回归家族文生图新SOTA,ImageNet上超越Diffusion与DiTs

一、背景:

        在人工智能领域,尤其是计算机视觉和自然语言处理中,自回归(AR)大型模型(如GPT系列)因其强大的生成能力和在多种任务上的通用性而受到广泛关注。这些模型通过自监督学习策略,即预测序列中的下一个标记,展现出了卓越的性能和可扩展性。然而,在图像生成领域,传统的自回归模型面临着性能不足和计算效率低下的问题,尤其是在与扩散模型等其他先进生成模型的比较中。因此,研究者们一直在探索如何改进自回归模型,使其在图像生成任务上达到甚至超越现有技术的性能。

二、摘要:

论文:https://arxiv.org/pdf/2404.02905.pdf
代码:https://github.com/FoundationVision/VAR

        本文提出了一种名为视觉自回归(VAR)建模的新范式,它通过将图像的自回归学习重新定义为“下一尺度预测”,与传统的栅格扫描“下一个标记预测”方法不同。VAR模型采用多尺度VQ-VAE来编码图像,并利用自回归Transformer来学习图像的分布。这种方法不仅提高了图像生成的质量,还显著加快了推理速度。VAR模型在ImageNet 256×256基准测试中的表现超越了现有的自回归和扩散模型,其Fréchet inception distance (FID) 和inception score (IS) 分别达到了1.80和356.4,同时推理速度提升了20倍。文章中甚至做了与DiTs相同量级参数的对比,指标上也有明显优势

        VAR模型还展现出了类似大型语言模型(LLMs)的幂律缩放法则和零样本泛化能力,这表明通过扩大模型规模可以持续提高性能。此外,VAR模型在图像修复、外绘和编辑等下游任务中也表现出色,无需特殊设计或微调即可泛化到新任务。

        文章的贡献包括提出了一种新的视觉效果生成框架、验证了VAR模型的缩放法则和零样本泛化潜力,并提供了开源代码以促进视觉自回归学习的进步。这些成果不仅推动了图像生成技术的发展,也为将自然语言处理领域的成功经验整合到计算机视觉中提供了新的思路。

三、算法

本文的核心算法创新、亮点、贡献以及细节网络结构和训练步骤如下:

核心算法创新:

  1. Visual AutoRegressive (VAR) modeling:本文提出了一种新的图像生成范式,即视觉自回归模型(VAR),它将图像的自回归学习重新定义为粗到细的“下一尺度预测”或“下一分辨率预测”,与传统的栅格扫描“下一个标记预测”不同。
  2. 多尺度VQ-VAE:VAR模型需要一个多尺度的向量量化自编码器(VQ-VAE)来工作,该自编码器能够将图像编码为不同分辨率的标记图(token maps)。
  3. 并行标记生成:在每个尺度上,VAR模型能够并行生成标记,这显著提高了生成效率。

亮点:

  1. 性能超越:VAR模型首次使得GPT风格的自回归模型在图像生成方面超越了扩散变换器(diffusion transformers)。
  2. 高效推理速度:在ImageNet 256×256基准测试中,VAR模型的推理速度比AR基线快20倍。
  3. 多维度优势:VAR在图像质量、推理速度、数据效率和可扩展性方面均优于Diffusion Transformer (DiT)。
  4. 幂律缩放法则:VAR模型展现出与大型语言模型(LLMs)中观察到的类似的幂律缩放法则,证明了其在性能预测方面的潜力。
  5. 零样本泛化能力:VAR在图像修复、外绘和编辑等下游任务中展示了零样本泛化能力。

贡献:

  1. 提出了一种新的多尺度自回归范式,为计算机视觉中的自回归算法设计提供了新的见解。
  2. 经验性验证了VAR模型的缩放法则和零样本泛化潜力,这些特性最初模仿了大型语言模型(LLMs)的吸引力。
  3. 在图像合成方面,使GPT风格的自回归方法首次超越了强大的扩散模型。
  4. 提供了一个全面的开源代码套件,包括VQ标记器和自回归模型训练流程,以推动视觉自回归学习的进步。

细节网络结构:

  1. 多尺度VQ-VAE:使用与VQGAN相同的架构,但修改了多尺度量化层,以编码图像到多个离散标记图。
  2. VAR Transformer:采用了类似于GPT-2的解码器仅Transformer架构,唯一的修改是将传统的层归一化替换为自适应归一化(AdaLN)。
  3. 模型参数和训练:模型的宽度、头数和丢弃率与深度线性缩放,所有模型均使用类似的设置进行训练。

训练步骤:

  1. 训练多尺度VQ-VAE:首先,使用复合重建损失训练多尺度量化自编码器,将图像编码为K个标记图。
  2. 训练VAR Transformer:然后,通过最大化似然或最小化交叉熵损失来训练VAR Transformer,进行下一尺度预测。

这些创新和贡献表明,VAR模型在图像生成领域具有重要的应用潜力,并且通过开源代码的提供,将进一步推动相关技术的发展和应用。

四、效果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/550835.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PMP有用吗,PMP含金量,如何转型项目经理?

为什么要学习PMP知识,PMP培训哪家好? IT行业项目管理一枚,曾在做技术的时候对自己的职业发展越来越迷茫,不想干到35岁就参与到失业潮中,一直在想着办法提升自己的能力和竞争力,直到了解到了PMP认证。也就是…

二维码门楼牌管理应用平台建设:场所维护的新篇章

文章目录 前言一、二维码门楼牌管理应用平台的兴起二、民警与网格员的角色定位三、场所信息审核的重要性四、技术支持与创新应用五、未来展望与挑战 前言 随着信息技术的飞速发展,二维码门楼牌管理应用平台的建设正成为城市管理的新宠。该平台不仅提高了场所管理的…

HR招聘人才测评,如何考察候选人的内驱力?

HR的日常招聘工作中,如何去评估候选人的内驱力。人的内驱力,在职业生涯中,是极为重要的品质,也被列入综合素质测评。 内驱力,是指一个人出于内心深处的热情和追求,自发驱动自己持续学习、不断进步&#xf…

jenkins从节点配置说明

目的 打包构建时使用从节点,从节点所在服务器配置4C8G5000G(服务器2) 前提 首先在服务器1上部署jenkins服务,即主节点,默认节点名称为master 步骤 1)登录进入jenkins平台,在系统设置中&…

项目风采展示【车酷-保时捷第二屏】

桌面功能介绍: 1:支持本地app桌面展示 2:支持本地音乐控制

LeetCode 每日一题 Day 123-136

1379. 找出克隆二叉树中的相同节点 给你两棵二叉树,原始树 original 和克隆树 cloned,以及一个位于原始树 original 中的目标节点 target。 其中,克隆树 cloned 是原始树 original 的一个 副本 。 请找出在树 cloned 中,与 tar…

自学Java的第二十四次笔记

一,方法重载 1.基本介绍 java 中允许同一个类中,多个同名方法的存在,但要求 形参列表不一致! 比如: System.out.println(); out 是 PrintStream 类型 2.重载的好处 1) 减轻了起名的麻烦 2) 减轻了记名的麻烦 3.快速入门案…

git 小记

一、 github新建仓库 git clone 。。。。。。。。。。。 (增删查补,修改) git add . git commit -m "修改” git push (git push main) 二、branch 分支 branch并不难理解,你只要想像将代码拷贝到不同目录…

Modality-Aware Contrastive Instance Learning with Self-Distillation ... 论文阅读

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection 论文阅读 ABSTRACT1 INTRODUCTION2 RELATEDWORKS2.1 Weakly-Supervised Violence Detection2.2 Contrastive Learning2.3 Cross-Modality Knowle…

盲人安全导航技巧:科技赋能让出行更自如

作为一名资深记者,长期关注并报道无障碍领域的发展动态。今日,我将聚焦盲人安全导航技巧,探讨这一主题下科技如何赋能视障人士实现更为安全、独立的出行。一款融合了实时避障、拍照识别物体及场景功能的盲人出行辅助应用叫做蝙蝠避障&#xf…

软考 - 系统架构设计师 - Web 应用真题(2)

问题 1: 淘汰策略:遗留系统技术含量低,业务价值也低,所以需要全面重新开发一个系统来替代遗留系;(一般是企业的业务发生了根本变化,遗留系统已经基本不再适应企业运作的需要;或者是遗…

C语言进阶课程学习记录-数组指针和指针数组分析

C语言进阶课程学习记录-数组指针和指针数组分析 实验-数组指针的大小实验-指针数组小结 本文学习自狄泰软件学院 唐佐林老师的 C语言进阶课程&#xff0c;图片全部来源于课程PPT&#xff0c;仅用于个人学习记录 实验-数组指针的大小 #include <stdio.h>typedef int(AINT…

【微信小程序之分包】

微信小程序之分包 什么是分包分包的好处分包前的结构图分包后的结构图分包的加载规则分包的体积限制使用分包打包原则引用原则独立分包独立分包的配置方法独立分包的引用原则分包预下载配置分包的预下载分包预下载限制 什么是分包 分包指的是把一个完整小程序项目&#xff0c;…

理想低通滤波器

理想低通滤波器&#xff0c;振铃现象是因为sinc函数&#xff0c;而sinc函数是因为例4.1的简单函数的傅里叶变换得到的。经过我的计算&#xff0c;简单函数的傅里叶反变换也得到sinc函数。这里的频率域滤波器因为是二个值的&#xff0c;所以类似简单函数&#xff0c;反变换之后得…

DRV8711驱动器的各寄存器的介绍

一、CTRL Register (Address = 0x00) ISENSE放大器增益设置:设定值越大时,表示在任何频率的指令脉冲下,位置滞后量越小;位置环的前馈增益大,控制系统的高速响应特性提高,但会使系统的位置不稳定,容易产生振荡; 死亡时间设置:电机驱动死区时间指的是在电机的控制信号由…

AI智能体技术突破:引领科技新浪潮

AI智能体技术突破&#xff1a;引领科技新浪潮 基于大模型的 AI Agent 工作流基于大模型的 AI Agent 工作流效果AI Agent 的四种设计模式Reflection 反思设计模式Tool use 工具使用设计模式Planning 规划设计模式Multiagent collaboration 多智能体协作设计模式 吴恩达在红杉美国…

Python可视化-matplotlib用法详解(一)

一、折线图绘制 import pandas as pds./../../data//unrate.csv unrate pd.read_csv(s) # 时间格式转换&#xff0c; unrate[DATE] pd.to_datetime(unrate[DATE]) print(unrate.head(12))DATE VALUE 0 1948-01-01 3.4 1 1948-02-01 3.8 2 1948-03-01 4.0 3 19…

C++ | Leetcode C++题解之第31题下一个排列

题目&#xff1a; 题解&#xff1a; class Solution { public:void nextPermutation(vector<int>& nums) {int i nums.size() - 2;while (i > 0 && nums[i] > nums[i 1]) {i--;}if (i > 0) {int j nums.size() - 1;while (j > 0 && …

pip如何查看Python某个包已发行所有版本号?

以matplotlib包为例子&#xff0c; pip install matplotlib6666 6666只是胡乱输入的一个数&#xff0c;反正输入任意一个不像版本号的数字都可以&#xff5e; matplotlib所有版本号如下&#xff0c; 0.86, 0.86.1, 0.86.2, 0.91.0, 0.91.1, 1.0.1, 1.1.0, 1.1.1, 1.2.0, 1.2.1…

从永远到永远-ThinkBook笔记本避坑

ThinkBook黑点吐槽 0.写在前边的话1.配置2.槽点1.蓝屏2.键盘失灵3.触摸板失灵4.游戏1.黑屏2.切出游戏 5.资源管理器搜索栏消失6.鼠标右键桌面失灵7.输入法8.声音 3.总结 0.写在前边的话 在购买本机之前&#xff0c;我一直使用的小米&#xff08;型号待补&#xff09;笔记本。也…
最新文章