英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

英伟达发布 Pixel Diffusion Decoder (PiD)，将潜在空间解码与上采样合并为基于像素的条件扩散模块，从而在消费级 RTX 5090 上以峰值 13 GB 显存将 512×512 潜变量直接解码并放大至 2048×2048，耗时不足 1 秒；在 GB200 上最快可达 210 ms。PiD 基于 PixelDiT 并加入轻量 ControlNet 风格适配器，通过与噪声强度（σ）相关的门控注入潜在表示；同时采用 DMD2 蒸馏把推理步数压缩到 4 步并配合早停，兼顾速度与画质。方法兼容传统 VAE 潜变量和 RAE/语义潜变量（如 SigLIP、DINOv2），相比级联式扩散超分端到端延迟可快约 5.9× 且视觉保真度更好。

5 月 27 日消息，英伟达团队最新发布图像生成技术 PiD，在消费级单张 RTX 5090 显卡上，能在 1 秒内将 512×512 图像潜变量直接解码并放大到 2048×2048 像素，峰值显存为 13 GB。

根据博文介绍，高分辨率文本生成图像过程中，通常先在潜在空间生成，再由解码器恢复成清晰图像。

潜在空间指模型把原始图像压缩后得到的数值表示空间，保留主体结构、语义关系等关键信息，却省去大量像素级细节，因此计算成本更低。

这种路线计算效率高，但传统解码器主要负责还原编码器输出，擅长“复原”，不擅长主动补出高分辨率细节，面对百万像素级图像时，速度与质量都存在明显瓶颈。

英伟达提出的 PiD，完整名称为 Pixel Diffusion Decoder（像素扩散解码器）。这项方法把潜在解码重新定义为条件式像素扩散，并把解码与上采样合并到同一个生成模块中，因此能在输出阶段补足纹理、结构和局部细节。

IT之家注：条件式像素扩散是一种在像素空间中逐步生成图像的方法，但它不是无条件生成，主要通过参考额外输入来约束结果。

PiD 基于 PixelDiT 构建，并加入轻量级 ControlNet 风格适配器。这个适配器会把含噪的潜在表示注入模型，再通过与西格玛相关的门控机制，按噪声强弱动态调整对潜在表示的信任程度。

为了继续压低延迟，团队还采用 DMD2 蒸馏，把推理步数压缩到 4 步。配合早停机制，PiD 兼顾了速度与输出质量。

它不仅适用于传统 VAE（变分自编码器）潜变量，也兼容近期 RAE 路线常用的语义潜变量，比如 SigLIP 和 DINOv2，这让它具备较强的通用性。

从公开数据看，PiD 可把 512×512 图像潜变量直接解码并放大到 2048×2048 像素。在消费级 RTX 5090 上，峰值显存为 13 GB，耗时不足 1 秒；在 GB200 GPU 上，最快可达 210 ms。

对比级联式扩散超分方案，PiD 端到端延迟最多快 5.9×，文中也概括为约 6×，同时视觉保真度更好。

IT之家附上参考地址

PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
Fast and High-Resolution Latent Decoding with Pixel Diffusion