GRU门控循环单元

GRU（Gated Recurrent Unit） 是2014年由Cho等人提出的RNN变体，核心是在保留LSTM解决长依赖能力的同时，大幅简化结构、减少参数、提升训练效率，是序列建模中最常用的轻量级模型之一。

一、背景与核心动机

传统RNN处理长序列时易出现梯度消失/爆炸（信息随时间步指数衰减），LSTM通过输入门、遗忘门、输出门+细胞状态解决该问题，但存在参数多、计算复杂、训练慢的缺陷。GRU的核心设计目标：

合并LSTM的3个门为2个门（更新门、重置门）；
取消独立的细胞状态cₜ，用隐藏状态hₜ同时承载短期与长期信息；
以更少参数（约LSTM的2/3）实现接近LSTM的性能。

二、核心结构与门控机制

GRU的单个单元仅含两个门和候选隐藏状态，输入为当前时刻输入$x_t$与上一时刻隐藏状态$h_{t-1}$，输出为当前隐藏状态$h_t$（无独立细胞状态）。

1. 两个核心门（均用Sigmoid激活，输出0~1）

（1）更新门（Update Gate, $z_t$）

作用：合并LSTM的遗忘门+输入门，决定保留多少历史信息$h_{t-1}$、更新多少新信息；
公式：
$$z_t = \sigma\left(W_z \cdot [h_{t-1}, x_t] + b_z\right)$$
其中：
- $[h_{t-1}, x_t]$：将上一隐藏状态与当前输入拼接；
- $W_z$、$b_z$：更新门的权重与偏置（可训练）；
- $\sigma$：Sigmoid函数，$\sigma(x)=\frac{1}{1+e^{-x}}$，输出0~1；
取值含义：
- $z_t \to 1$：几乎完全保留历史信息，忽略当前输入；
- $z_t \to 0$：几乎完全用新信息替换历史，快速更新状态。

（2）重置门（Reset Gate, $r_t$）

作用：控制历史信息对当前候选状态的影响程度，决定是否“重置”历史记忆；
公式：
$$r_t = \sigma\left(W_r \cdot [h_{t-1}, x_t] + b_r\right)$$
其中：$W_r$、$b_r$为重置门的权重与偏置；
取值含义：
- $r_t \to 1$：完全保留历史信息，用于计算候选状态；
- $r_t \to 0$：完全重置历史，候选状态仅依赖当前输入。

2. 候选隐藏状态（$\tilde{h}_t$）

作用：基于重置后的历史信息与当前输入，生成新的候选状态（相当于LSTM的细胞状态候选）；
公式：
$$\tilde{h}t = \tanh\left(W_h \cdot [r_t \odot h{t-1}, x_t] + b_h\right)$$
其中：
- $\odot$：逐元素乘法（Hadamard积），用$r_t$对$h_{t-1}$做“过滤”；
- $W_h$、$b_h$：候选状态的权重与偏置；
- $\tanh$：双曲正切激活，输出-1~1，保证候选状态的取值范围。

3. 最终隐藏状态（$h_t$）

作用：通过更新门$z_t$，对历史状态$h_{t-1}$与候选状态$\tilde{h}_t$做加权融合，得到当前时刻的最终隐藏状态；
公式：
$$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$$
该式是GRU的核心：$1-z_t$控制历史保留比例，$z_t$控制新信息融入比例。

三、GRU完整前向传播流程（一步）

输入：$x_t$（当前输入）、$h_{t-1}$（上一隐藏状态）；
计算更新门：$z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)$；
计算重置门：$r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)$；
计算候选状态：$\tilde{h}t = \tanh(W_h \cdot [r_t \odot h{t-1}, x_t] + b_h)$；
计算最终隐藏状态：$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$；
输出：$h_t$（可作为下一时间步输入，或直接输出到后续层）。

四、GRU vs LSTM 关键对比

对比维度	LSTM	GRU
门数量	3（遗忘门、输入门、输出门）	2（更新门、重置门）
状态载体	双状态（$h_t$、$c_t$）	单状态（仅$h_t$）
参数量	约4倍RNN	约3倍RNN（少约33%）
计算速度	较慢	更快（少1个门计算）
长序列能力	极强（细胞状态独立传递）	强（依赖$h_t$传递）
适用场景	超长序列（如长文本、语音）	中短序列、资源受限场景
训练难度	较高	较低（收敛更快）

五、GRU的核心优势与局限性

优势

结构简洁、参数更少：比LSTM少约1/3参数，训练更快、内存占用更低；
训练效率高：计算量小、收敛速度快，适合移动端、嵌入式设备；
性能接近LSTM：在多数NLP/时序任务（如文本分类、机器翻译、语音识别）中，准确率与LSTM几乎无差异；
梯度更稳定：门控机制有效缓解梯度消失，能捕捉长距离依赖。

局限性

超长序列能力略弱：无独立细胞状态，长距离信息传递依赖$h_t$，在极长序列（如1000+时间步）中性能可能不及LSTM；
表达能力略逊：单状态设计限制了信息的分离存储，复杂任务中可能需要更深网络或更复杂变体；
依赖数据规模：在小数据集上，GRU的泛化能力可能不如LSTM。

六、常见变体与应用场景

1. 常见变体

简化GRU（SGRU）：去掉重置门，仅保留更新门，进一步简化结构；
双向GRU（Bi-GRU）：结合前向与后向GRU，捕捉序列上下文信息（如文本情感分析）；
GRU注意力机制：在GRU基础上加入注意力，聚焦关键时间步信息（如机器翻译）。

2. 典型应用

自然语言处理（NLP）：文本分类、机器翻译、情感分析、命名实体识别；
时序预测：股票价格、气温、流量预测；
语音处理：语音识别、语音合成；
推荐系统：用户行为序列建模。

七、总结

GRU是LSTM的高效简化版，通过更新门+重置门+单隐藏状态的设计，在参数、速度、性能间取得了极佳平衡。它是序列建模的首选轻量级模型，尤其适合中短序列、资源受限场景；若处理超长序列，则优先选择LSTM或其变体。