
简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE - 知乎
2023年11月20日 · VQ全称是“ Vector Quantize ”,可以翻译为“向量量子化”或者“向量量化”,是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。 如果我们将VQ应用在自编码器的中间层,那么可以在压缩输入大小的同时,让编码结果成为一个离散的整数序列。 假设自编码器的重构损失能够让我们满意,那么这个整数序列就是原始图像的等价物,所有关于原始图像的操作都可以转化为整数序列上的操作。 比如我们想训练图像生成模型,就只需要训练整数序列 …
[2309.15505] Finite Scalar Quantization: VQ-VAE Made Simple
2023年9月27日 · We propose to replace vector quantization (VQ) in the latent representation of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where we project the VAE representation down to a few dimensions (typically less than 10).
VQ-VAE, FSQ, LFQ, BSQ - 知乎 - 知乎专栏
2024年6月29日 · Factorized codes 认为,在Encoder出来的token Z_e 到quantizer出来的token Z_q 之间,存在两个操作,即查询和映射。 传统的方法把两个操作合并在一起进行操作,作者将这两个操作 解耦 开来,获得了更好的效果。 那么具体是怎么解耦的呢? 作者认为查询是在一个更加低维(被压缩的维度)去查询。 所以作者使用了两个linear,一个linear对 Z_e 做下采样,另外一个linear上采样得到 Z_q 。
FSQ - Fast Simple QSO for Amateur Radio
2025年3月27日 · FSQ (Fast Simple QSO) is an audio-frequency modulated digital mode (DIGIMODE) in Amateur Radio. It is used like other sound-card digimodes (PSK-31, RTTY, OLIVIA, THOR, FT-8 and others.) If you already use those or similar digimodes then you already have everything you need to use FSQ.
- [PDF]
FSQ - WA9TT
FSQ, or Fast Simple QSO, is a mode recently developed for short, sentence-based chats on the HF amateur bands. It is easy to use and a great way to meet other hams and get to know them through interchanges on this digital mode. I invite the reader to Google FSQCall. In particular go to the web site of developer Con ZL2AFP.
一文详解 codebook 技术史(从 VAE 到 VQ/RQ-VAE 到 FSQ) - 知乎
q (z) 是标准正态分布, q (x \mid z) 是我们的生成式模型;此外还需明确的是 p (x) 是 x 的原始分布, q (z \mid x) 是encoder生成的 z ,训练时要让其逼近正态分布。 我们直接采用联合建模的角度,原来我们的目的是让 q (x) 来逼近 p (x) ,我们转变下思路变为让 q (x,z) 与 p (x,z) 越相近越好,注意除了 q (x,z), p (x,z) 中也有参数: K L (p (x, z) \| q (x, z))=\iint p (x, z) \log \frac {p (x, z)} {q (x, z)} d z d x \\ KL 散度便是我们的终极目标,我们将从这个 KL 散度推导出最终的 ELBO:
简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE - 科学空 …
2023年10月31日 · VQ全称是“Vector Quantize”,可以翻译为“向量量子化”或者“向量量化”,是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。 如果我们将VQ应用在自编码器的中间层,那么可以在压缩输入大小的同时,让编码结果成为一个离散的整数序列。 假设自编码器的重构损失能够让我们满意,那么这个整数序列就是原始图像的等价物,所有关于原始图像的操作都可以转化为整数序列上的操作。 比如我们想训练图像生成模型,就只需要训练整数序列生 …
A Pytorch Implementation of Finite Scalar Quantization
In our view, FSQ is a great idea, and we manage to quickly implement a reproduction on a minimal framework. We are impressed by how FSQ is not only simple and effective in its concept but also highly optimizable during actual training. We use the ImageNet dataset (128*128) for our experiments with the downsampling factor as 8.
FSQ: FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE …
2024年2月22日 · 谷歌在2023年提出的FSQ方法,通过将VAE表示投影到低维并量化为固定值,解决了VQ-VAE中的codebookcollapse问题和辅助损失,无需额外机制,适用于文本和视频生成,且在实验中表现出竞争力。 摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 > 2023 年 google 发表的文章,可以用于文本、视频生成领域中。 提出一种称为有限标量量化(FSQ)的简单方案来替换 VQ-VAEs 中的向量量化(VQ)。 解决传统 VQ 中的两个主要问题: 训练优化 …
自回归图像学习——FSQ RQ-VAE个人理解 - CSDN博客
2024年12月22日 · 假设VQ中,一个d维的连续向量做映射需要一个分出K类的大码本,现在FSQ中,RQ-VAE的设计也是为了解决VQ中码本过大的缺点,个人理解RQ的思想就是。 寻找码本中的最相似向量,因此VQ-VAE相当于将码本分为了。 _rq-vae.