本文提出了一种基于深度学习的图像识别方法。实验结果表明,该方法在
ImageNet
数据集上达到了
92.3\%
的准确率。
关键词:
深度学习;图像识别;卷积神经网络
随着深度学习技术的快速发展
he2016, krizhevsky2012
,图像识别领域取得了突破性进展。然而,现有方法在计算效率方面仍存在诸多挑战
tan2019
。
本文的主要贡献如下:
sec:method,fig:arch
。
卷积神经网络(CNN)自
lecun1998
提出以来,已成为计算机视觉领域的基础架构。
本文其余部分组织如下:第
[sec:method]
节介绍所提出的方法,第
[sec:experiment]
节展示实验结果,最后在第
[sec:conclusion]
节进行总结。
近年来,多种网络架构被提出。
simonyan2014, szegedy2015, he2016
等代表性工作极大地推动了该领域的发展。
本节详细描述所提出的方法架构,如
fig:arch
所示。整体流程如公式
eq:loss
所定义。
figures/architecture.png
本文采用交叉熵损失函数,其定义如下:
\mathcal{L} = -\sum_{i=1}^{N} y_i \log(\hat{y}_i)
其中
N
表示类别数量,
y_i
为真实标签,
\hat{y}_i
为预测概率。
模型使用
Adam
优化器进行训练,初始学习率设为
10^{-3}
。
本节在三个标准数据集上评估所提出方法的性能。实验结果汇总于
[tbl:result]
。
实验采用以下数据集:
CIFAR-10
、
CIFAR-100
和
ImageNet
。
不同方法的对比结果如下表所示:
| 方法 |
准确率 (%) |
参数量 (M) |
| ResNet-18 |
93.0 |
11.7 |
| ResNet-50 |
93.5 |
25.6 |
| DenseNet-121 |
94.2 |
8.0 |
| 本文方法 |
95.1 |
9.3 |
从表中可以看出,本文方法以较少的参数量取得了最优的准确率。
本文提出了一种高效的图像识别方法,在多个数据集上验证了其有效性。未来工作将探索该方法在视频分析领域的应用。
本研究得到了国家自然科学基金(项目编号:No. 114514)的资助,在此表示感谢。
references.bib