循环神经网络
1. 核心思想
循环神经网络(RNN)是一种专门处理序列数据的神经网络。其核心特点是引入“循环连接”,使网络具备记忆能力,能够利用上文信息预测后续内容。
应用场景:自然语言处理(文本生成、翻译)、时间序列预测(股价、天气)、语音识别等。
2. 基础结构
(1)循环单元的工作原理
输入:当前时刻的输入 和前一时刻的隐藏状态 。
更新公式:
:激活函数(如tanh、ReLU)。
:权重矩阵;:偏置项。
输出:, 为输出层激活函数(如Softmax)。
(2)时序展开示意图
时间步1: [h0] → [h1] → y1
时间步2: [h1] → [h2] → y2
...
时间步T: [h_{T-1}] → [h_T] → yT 所有时间步共享同一组权重(参数复用),减少模型复杂度。
3. 经典变体
(1)长短时记忆网络(LSTM)
解决问题:普通RNN的梯度消失/爆炸,难以捕捉长期依赖。
核心组件:
遗忘门:决定丢弃哪些历史信息。
输入门:筛选新信息加入记忆。
输出门:控制当前时刻的输出。
细胞状态:贯穿时间线的“记忆通道”,减少信息衰减。
(2)门控循环单元(GRU)
简化版LSTM:合并遗忘门与输入门为“更新门”,取消细胞状态。
公式:
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
