本文提出了一种基于深度学习的图像识别方法。实验结果表明,该方法在 ImageNet 数据集上达到了 92.3\% 的准确率。 关键词: 深度学习;图像识别;卷积神经网络
随着深度学习技术的快速发展 he2016, krizhevsky2012 ,图像识别领域取得了突破性进展。然而,现有方法在计算效率方面仍存在诸多挑战 tan2019 本文的主要贡献如下: sec:method,fig:arch 卷积神经网络(CNN)自 lecun1998 提出以来,已成为计算机视觉领域的基础架构。 本文其余部分组织如下:第 sec:method 节介绍所提出的方法,第 sec:experiment 节展示实验结果,最后在第 sec:conclusion 节进行总结。 近年来,多种网络架构被提出。 simonyan2014, szegedy2015, he2016 等代表性工作极大地推动了该领域的发展。 本节详细描述所提出的方法架构,如 fig:arch 所示。整体流程如公式 eq:loss 所定义。
  1. 输入图像经过预处理模块进行归一化。
  2. 特征提取网络(如fig:arch所示)提取多尺度特征。
  3. 分类头根据eq:loss计算损失并输出预测结果。
figures/architecture.png
本文采用交叉熵损失函数,其定义如下: \mathcal{L} = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) 其中 N 表示类别数量, y_i 为真实标签, \hat{y}_i 为预测概率。 模型使用 Adam 优化器进行训练,初始学习率设为 10^{-3}
本节在三个标准数据集上评估所提出方法的性能。实验结果汇总于 tbl:result
  • CIFAR-10:10 个类别,共 60,000 张 32×32 彩色图像。
  • CIFAR-100:100 个类别,共 60,000 张 32×32 彩色图像。
  • ImageNet:1,000 个类别,共约 120 万张训练图像。
不同方法的对比结果如下表所示:
方法 准确率 (%) 参数量 (M)
ResNet-18 93.0 11.7
ResNet-50 93.5 25.6
DenseNet-121 94.2 8.0
本文方法 95.1 9.3
从表中可以看出,本文方法以较少的参数量取得了最优的准确率。
本文提出了一种高效的图像识别方法,在多个数据集上验证了其有效性。未来工作将探索该方法在视频分析领域的应用。
本研究得到了国家自然科学基金(项目编号:No. 114514)的资助,在此表示感谢。
以下是模型核心模块的伪代码实现:
references.bib