本文提出了一种基于深度学习的图像识别方法。实验结果表明，该方法在 ImageNet 数据集上达到了 92.3\% 的准确率。 关键词： 深度学习；图像识别；卷积神经网络

随着深度学习技术的快速发展 he2016, krizhevsky2012 ，图像识别领域取得了突破性进展。然而，现有方法在计算效率方面仍存在诸多挑战 tan2019 。本文的主要贡献如下： sec:method,fig:arch 。卷积神经网络（CNN）自 lecun1998 提出以来，已成为计算机视觉领域的基础架构。本文其余部分组织如下：第 sec:method 节介绍所提出的方法，第 sec:experiment 节展示实验结果，最后在第 sec:conclusion 节进行总结。近年来，多种网络架构被提出。 simonyan2014, szegedy2015, he2016 等代表性工作极大地推动了该领域的发展。本节详细描述所提出的方法架构，如 fig:arch 所示。整体流程如公式 eq:loss 所定义。

输入图像经过预处理模块进行归一化。
特征提取网络（如fig:arch所示）提取多尺度特征。
分类头根据eq:loss计算损失并输出预测结果。

figures/architecture.png 本文采用交叉熵损失函数，其定义如下： \mathcal{L} = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) 其中 N 表示类别数量， y_i 为真实标签， \hat{y}_i 为预测概率。模型使用 Adam 优化器进行训练，初始学习率设为 10^{-3} 。本节在三个标准数据集上评估所提出方法的性能。实验结果汇总于 tbl:result 。

CIFAR-10：10 个类别，共 60,000 张 32×32 彩色图像。
CIFAR-100：100 个类别，共 60,000 张 32×32 彩色图像。
ImageNet：1,000 个类别，共约 120 万张训练图像。

不同方法的对比结果如下表所示：

方法	准确率 (%)	参数量 (M)
ResNet-18	93.0	11.7
ResNet-50	93.5	25.6
DenseNet-121	94.2	8.0
本文方法	95.1	9.3

从表中可以看出，本文方法以较少的参数量取得了最优的准确率。本文提出了一种高效的图像识别方法，在多个数据集上验证了其有效性。未来工作将探索该方法在视频分析领域的应用。

本研究得到了国家自然科学基金（项目编号：No. 114514）的资助，在此表示感谢。

以下是模型核心模块的伪代码实现：

references.bib