BioGuider生命百科  > 所属分类  >  交叉与基础学科   

深度神经网络

目录

深度神经网络详解编辑本段

1. 基本概念

深度神经网是一种模仿生物神经系统结构和功能的机器学习模型,通过多层级非线性变换从数据中学习复杂模式。其核心特点包括:

  • 深度结构:包含多个隐藏层(通常≥3层),每层由多个神经元(节点)组成。
  • 非线性激活:使用ReLU、Sigmoid等函数引入非线性,增强模型表达能力。
  • 端到端学习:自动提取特征,无需人工设计特征工程。

2. 核心组件

(1)神经元(Neuron)

  • 输入:接收前一层输出或原始数据(如像素值)。
  • 加权求和z = wx₁ + wx₂ + ... + wxₙ + b
  • 激活函数a = f(z),常见函数包括:
    • ReLUf(z) = max(0, z)(解决梯度消失,计算高效)。
    • Sigmoidf(z) = 1/(1+ez)(输出0-1,适用于概率)。
    • Softmax:多分类归一化输出概率。

(2)网络结构

  • 前馈网络(Feedforward)信息单向流动(输入→隐藏层→输出)。
  • 反馈连接:如循环神经网络(RNN)中的时间循环,处理序列数据。
  • 跳跃连接(Skip Connection):ResNet等模型通过跨层连接缓解梯度消失。

(3)损失函数(Loss Function)

  • 均方误差(MSE):回归任务,如房价预测。
  • 交叉熵(Cross-Entropy):分类任务,如图像识别
  • 自定义损失:根据任务设计(如目标检测中的IoU Loss)。

3. 经典架构

(1)卷积神经网络(CNN)

  • 核心组件
    • 卷积层:局部感受野提取空间特征(如边缘、纹理)。
    • 池化层:降维增强平移不变性(如最大池化保留显著特征)。
  • 应用:图像分类(ResNet)、目标检测(YOLO)、医学影像分析。

(2)循环神经网络(RNN)

  • 时序建模:通过隐藏状态传递时间依赖信息。
  • 变体
    • LSTM:门控机制解决长程依赖问题。
    • GRU:简化版LSTM,参数更少。
  • 应用:机器翻译、语音识别、股票预测。

(3)Transformer

  • 自注意力机制:并行计算全局依赖关系,替代RNN的时序处理。
  • 核心模块
    • 多头注意力(Multi-Head Attention):多角度捕捉上下文关联。
    • 位置编码:注入序列位置信息。
  • 应用:BERT(自然语言理解)、GPT(文本生成)、ViT(图像分类)。

(4)生成对抗网络(GAN)

  • 对抗训练:生成器(G)与判别器(D)博弈优化。
  • 损失函数:minG maxD V(D, G) = Ex~pdata[log D(x)] + Ez~pz[log(1 - D(G(z)))]。
  • 应用:图像生成(StyleGAN)、图像修复、数据增强。

4. 训练与优化

(1)反向传播(Backpropagation)

  • 链式法则:从输出层反向计算梯度,更新权重(ww - η ∂L/∂w)。
  • 梯度问题
    • 梯度消失:深层网络梯度趋零(LSTM、ResNet缓解)。
    • 梯度爆炸:梯度值过大(梯度裁剪解决)。

(2)优化器

  • SGD:随机梯度下降,基础但易震荡。
  • Adam:自适应学习率,结合动量与RMSProp,广泛使用。
  • Adagrad:稀疏数据优化(如自然语言任务)。

(3)正则化

  • Dropout:随机失活神经元,防止过拟合。
  • 权重衰减(L2正则化):约束权重幅值。
  • 数据增强旋转、裁剪图像,提升泛化性。

5. 应用场景

  • 计算机视觉
    • 人脸识别(FaceNet)、自动驾驶(车道检测)、医学影像(肿瘤分割)。
  • 自然语言处理
    • 情感分析、聊天机器人(ChatGPT)、文档摘要。
  • 强化学习
    • AlphaGo(策略网络)、机器人控制(DQN)。
  • 生成式AI
    • 文本生成(GPT-4)、图像生成(Stable Diffusion)、音乐合成。

6. 挑战与前沿

(1)数据依赖

  • 小样本学习:元学习(MAML)、数据合成(GAN生成)。

参考资料编辑本段

  • LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
  • Vaswani, A., et al. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
  • Goodfellow, I., et al. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).
  • Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
  • 周志华. (2016). 机器学习. 清华大学出版社.
  • 邱锡鹏. (2021). 神经网络与深度学习. 机械工业出版社.

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 多感官整合    下一篇 循环神经网络