EG3D 学习笔记

约 2167 字大约 7 分钟

2024-11-16

混合显式-隐式网络架构：提出了一种 Tri-plane 的3D表征方法，结合显式体素网格与隐式解码器的优点
- 速度快，内存效率高；
- 支持高分辨率生成，保持3D表征的灵活性和表达能力。
- 与纯显式或隐式方法相比，既解决了查询速度慢的问题，又能更好地扩展到高分辨率。
使用超分辨率模块 Super Resolution ：解决高分辨率训练和渲染的计算限制。
双鉴别器 dual-discrimination：在生成器的渲染结果与最终输出之间引入双重判别器，增强了神经渲染与最终输出之间的一致性，避免了视图不一致的问题。即将超分辨率之前的图像和超分辨率之后的拼在一起鉴别。
姿态条件生成 pose-based conditioning to the generator：
- 引入基于姿态的条件生成方法，使生成器在推理时能输出与多视图一致的图像。
- 同时，能够很好建模训练数据中与姿态相关的属性分布（如人脸表情的变化）。
特征生成与神经渲染的解耦：
- 利用2D GAN（如StyleGAN2）的特征生成器，结合3D神经体积渲染，提高效率和效果。

隐式表示（NeRF）：这些方法需要大型的全连接网络，每次查询都需要完整的网络计算，速度慢。
显式表示（Voxels）：评估速度快，但内存开销大，难以扩展到高分辨率或复杂场景。
混合显式-隐式表示：结合了以上两种方法的优点，提供了计算和内存效率更高的架构。局部隐式表示和混合架构通过在显式存储的基础上，使用隐式解码器来聚合特征，从而实现高效的渲染。

Tri-plane特征的生成：

神经渲染和超分辨率模块：

判别器：

训练策略：

作者提出了一种新的 Tri-plane 混合显式-隐式3D表示方法

Tri-plane 表示：将3D空间的特征投影到三个轴对齐的正交平面（XY、XZ、YZ平面），每个平面具有尺寸为 N×N×C，其中 N 是分辨率，C 是通道数。
特征查询和聚合：对于任意的3D点，通过在三个平面上进行双线性插值获取特征，然后将这些特征向量相加，得到聚合的3D特征。
轻量级解码器：使用小型的MLP解码器将聚合的特征转换为颜色和密度信息。
体渲染：通过神经体渲染生成最终的图像。

优势：

Tri-plane 特征的生成：

输出形状的修改：

修改了StyleGAN2骨干网络的输出形状：不再生成三通道的RGB图像，而是生成一个256×256×96的特征图像。这个特征图像在通道维度上拆分并重塑，形成三个32通道的平面（对应于Tri-plane表示）。

特征采样与解码：

混合表示的查询与输出：

体积渲染：

虽然Tri-plane表示相比之前的方法在计算效率上有显著提升，但在高分辨率下直接进行训练或渲染仍然太慢。因此，作者选择在中等分辨率（如128×128）下执行体渲染，然后依靠图像空间的卷积操作将神经渲染结果上采样到最终的图像尺寸（256×256或512×512）。

超分辨率模块的设计：

结构：由两个包含StyleGAN2调制卷积层的模块组成，这些卷积层对32通道的特征图像 $I_F$ 进行上采样和细化，生成最终的RGB图像 $I^+_{RGB}$ 。
细节：禁用了每像素的噪声输入，以减少纹理粘连现象（texture sticking）。重用了骨干网络的映射网络来对这些卷积层进行调制。

在标准的2D GAN训练中，生成的图像通常由2D卷积判别器进行评判。作者使用了StyleGAN2的判别器，并进行了两个修改：

双重判别：解决先前工作中出现的多视图不一致问题。
- 将神经渲染的特征图像 $I_F$ 的前三个特征通道解释为低分辨率的RGB图像 $I_{RGB}$ 。
- 将 $I_{RGB}$ 双线性上采样到与超分辨率图像 $I^+_{RGB}$ 相同的分辨率。
- 将上采样后的 $I_{RGB}$ 与 $I^+_{RGB}$ 进行通道上的连接，形成一个六通道的图像输入判别器（见图4）。
- 对每个真实图像，生成一个适当模糊的副本，与原图像连接，形成六通道输入。
使判别器感知相机姿态：按照StyleGAN2-ADA中的条件生成策略，将渲染相机的内参和外参矩阵（统称为 (P)）作为条件标签传递给判别器。
- 作用：这一条件输入为判别器提供了额外的信息，引导生成器学习正确的3D先验。

摄像机姿态与其他属性（例如面部表情）存在相关性。如果直接处理，可能会导致视图不一致的结果。例如，摄像机相对于人脸的角度与微笑可能存在相关性。

生成器的姿态条件化（Generator Pose Conditioning）

方法：在提供给生成器的映射网络时，除了潜码向量 (z) 外，还输入相机参数 (P)，遵循条件生成策略。
作用：
- 通过让生成器知晓渲染相机的位置，使目标视角能够影响场景的合成。
- 在训练过程中，姿态条件化使生成器能够建模数据集中隐含的姿态依赖偏差，从而可靠地再现数据集中的图像分布。