ITA | HUST

2. 机器学习与深度学习

2.3 深度学习的原理与应用

### Transformer 模型 - Transformer 是首个完全基于注意力机制的模型 - 用于处理序列数据 - 由 Vaswani 等人提出, 最初用于机器翻译任务 - 引领了 NLP 领域的一系列创新, 包括 BERT, GPT 等

### 自注意力机制 - 自注意力 (Self-Attention) 允许输入序列中的每个元素对其他所有元素进行加权 - $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V $$ - $Q, K, V$ 分别是查询 (Query) , 键 (Key) , 值 (Value) 矩阵, $d_k$ 是键向量的维度 - $ QK^T $ 是查询矩阵和键矩阵的点积操作, 用于计算查询与所有键之间的相似度或匹配程度

### 自注意力机制 - $ \frac{1}{\sqrt{d\_k}} $ 缩放点积得分, 避免梯度消失问题 - $ d\_k $ 是键向量的维度, 根据维度的根号来缩放 - $ \text{softmax} $ 函数将点积得分转换为概率分布形式 - 将 softmax 输出的注意力权重矩阵与值矩阵 $ V $ 相乘, 得到加权求和后的输出 - 输出被视为输入查询的加权表示

### 多头注意力机制 - 多头注意力是自注意力的一种扩展 - 将注意力机制并行化 - 每个 "头" 独立学习输入序列的不同方面 - $$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}\_1, \dots, \text{head}\_h)W^O $$ - 其中, 每个 $ head\_i = Attention(QW\_i^Q, KW\_i^K, VW\_i^V) $

### 编码器与解码器 - Transformer 模型包含编码器和解码器各 N 层 - 编码器层包括多头注意力和前馈神经网络 - 解码器层在此基础上增加了掩码多头注意力, 以防止未来信息的泄露

### 位置编码 - Transformer 完全基于注意力机制 - 缺乏对序列顺序的内在理解 - 位置编码向模型注入关于元素位置的信息 - 使用正弦和余弦函数的组合进行编码 - $$ PE\_{(pos, 2i)} = \sin(pos/10000^{2i/d\_{\text{model}}}) $$ - $$ PE\_{(pos, 2i+1)} = \cos(pos/10000^{2i/d\_{\text{model}}}) $$

### 使用正弦和余弦函数 - 周期性 (Periodicity) - 不同频率 - 可推广性

### 数学解释 - 使用 $ \frac{pos}{10000^{2i/d\_{\text{model}}}} $ 是让不同维度上的位置编码具有不同的频率 - $ 10000^{2i/d_{\text{model}}} $ 的底数是个大常数, 使得频率随维度 $ i $ 而显著变化

### 层归一化与残差连接 - 残差连接帮助缓解深层网络中的梯度消失问题 - 层归一化 (Layer Normalization) 加快收敛速度 - 残差连接公式: $ \text{Output} = \text{LayerNorm}(x + \text{Sublayer}(x)) $

### 训练策略与挑战 - Transformer 需要大量数据来有效训练 - 使用大量的 GPU/TPU 资源以及高效数据并行处理 - 主要挑战包括梯度消失, 过拟合以及训练成本

### Transformer 实际应用 - 广泛应用于语言理解, 文本生成, 摘要以及翻译等 - 在处理大规模数据集时表现卓越 - 引领了自然语言处理技术的新方向

### Diffusion 模型 - 传统生成模型: GAN 和 VAE - Diffusion 模型基于过程生成 - 生成质量 - 多样性

### Diffusion 模型基本原理 - 正向过程: 逐步加入噪声 - 反向过程: 逐步从噪声中恢复数据 - 正向过程: $ p(\mathbf{x}\_{t-1} | \mathbf{x}\_t) $ - 反向过程: $ q(\mathbf{x}\_t | \mathbf{x}\_{t-1}) $

### 正向过程 - 逐渐向数据中添加噪声的过程 - 从原始数据 $ \mathbf{x}\_0 $ 开始, 逐步引入噪声 - 最终生成近似噪声的数据 $ \mathbf{x}\_T $ - 条件概率分布, 其中 $ \mathbf{x}\_t $ 是在给定 $ \mathbf{x}\_{t-1} $ 的情况下生成 - $$ q(\mathbf{x}\_t | \mathbf{x}\_{t-1}) = \mathcal{N}(\mathbf{x}\_t; \sqrt{1-\beta\_t} \mathbf{x}\_{t-1}, \beta\_t \mathbf{I}) $$ - $ \beta\_t $ 决定了每一步加入的噪声量 - $ \mathcal{N} $ 表示高斯分布

### 反向过程 - 从噪声数据重构原始数据的过程 - 从噪声状态重建出干净的数据状态 - $$ p(\mathbf{x}\_{t-1} | \mathbf{x}\_t) = \mathcal{N}(\mathbf{x}\_{t-1}; \mu\_{\theta}(\mathbf{x}\_t, t), \sigma\_t^2 \mathbf{I}) $$ - $ \mu\_{\theta}(\mathbf{x}\_t, t) $ 是由神经网络参数化的函数, 预测给定 $ \mathbf{x}\_t $ 下 $ \mathbf{x}\_{t-1} $ 的最可能状态 - $ \sigma\_t^2 $ 是噪声的方差, 是固定值或者由模型动态预测

### 核心组件: 噪声添加与去除 - 添加噪声的策略和效果 - 去除噪声的机制 - 噪声模型对生成质量的影响

### Diffusion 模型的训练数据要求 - 数据类型与质量要求 - 大量数据的处理与优化

### 训练 Diffusion 模型的损失函数 - 损失函数: $ \mathcal{L} = \mathbb{E}[\|\mathbf{x}\_0 - \hat{\mathbf{x}}\_0(\mathbf{x}\_t)\|^2] $ - 如何优化模型以最小化重建误差 - 损失函数的影响: 模型稳定性与生成质量

### 训练中的挑战与解决方案 - 训练资源需求: 计算力与时间 - 优化策略: 如何提高效率与减少资源消耗 - 技术进展: 利用新算法与硬件优化模型性能

### 时间步的调整方法与重要性 - 时间步数量的选择如何影响模型性能 - 时间步的细微调整对结果的具体影响 - 实践中的最佳实践与常见误区

### 条件生成 - 条件生成的概念与应用 - 如何在 Diffusion 模型中实施条件生成

### Diffusion 模型的技术创新 - Denoising Diffusion Probabilistic Models - DDPM 的工作原理与技术优势 - DDPM 与其他 Diffusion 模型的比较

### DDPM - DDPM 是一种基于随机过程的生成模型 - 模拟物理世界中的扩散过程 - 在高质量图像生成, 音频合成等领域表现出色

### DDPM 的工作原理 - 噪声模型: $ q(\mathbf{x}\_{t} | \mathbf{x}\_{t-1}) = \mathcal{N}(\mathbf{x}\_t; \sqrt{1-\beta\_t} \mathbf{x}\_{t-1}, \beta\_t \mathbf{I}) $ - 反向过程: $ p\_\theta(\mathbf{x}\_{t-1} | \mathbf{x}\_t) = \mathcal{N}(\mathbf{x}\_{t-1}; \mu\_\theta(\mathbf{x}\_t, t), \sigma\_t^2 \mathbf{I}) $ - 使用神经网络预测去噪过程中每一步的参数, 如均值 $ \mu\_\theta $ 和方差 $ \sigma\_t^2 $

### DDPM 的技术优势 - 高质量生成 - 稳定性 - 可控性

### DDPM 与其他 Diffusion 模型的比较 - DDPM 通过预测噪声来优化反向过程, 效率更高 - 生成高保真度图像时更稳定, 避免 GAN 的训练困难 - 提供了一种不同于 VAE 的视角

### Improved Diffusion - Improved Diffusion 的关键改进点 - 性能提升的具体实例 - 如何实现更高效的 Diffusion 模型

### 性能与效率 - 针对传统模型的性能瓶颈提出的改进版本 - 减少所需的采样步骤, 提高生成速度和质量 - 使用更复杂的网络结构 - 改进训练技巧如使用残差连接和注意力机制

### 性能提升 - 通过减少采样步骤, 从数千步降低到数百步 - 更细致的图像细节和更高的图像分辨率 - 在任务如超分辨率和条件图像生成中展现显著改进

### 实现更高效的 Diffusion 模型 - 采用分层训练方法, 逐层优化网络性能 - 引入高效网络设计, 如深度可分卷积和多尺度结构 - 使用先进的算法加速如 FFT 加速的卷积运算, 优化内存和计算资源的使用

### 最新进展与未来方向 - Diffusion 模型在各领域的新应用 - 技术发展的趋势与挑战 - 未来研究方向与潜在的突破

![course 2.3 mindmap](img/c02/mindmap-2-3.png)

### 2.3 深度学习的原理与应用 - 解释什么是自注意力机制. - 讨论自注意力在 Transformer 模型中的重要性. - 为什么 Diffusion 模型生成过程具有高稳定性? - 尝试做一个实验, 使用 DDPM 生成特定风格的图像. - 讨论使用注意力机制的优势, 特别在处理大数据时. - 思考一种可能的场景, 将 Transformer 和 Diffusion 模型结合使用, 以解决现实世界中的问题. ---- [ 2.2 多层神经网络的诞生与发展](ita-2-2.html#/overview) [| 练习 |](ita-exec.html) [ 2.4 深度学习的现状与不足](ita-2-4.html#/overview)