基于多尺度特征融合和残差注意力机制的目标检测

计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (02): 347-353.

基于多尺度特征融合和残差注意力机制的目标检测

李本高，吴从中，许良凤，詹曙

（合肥工业大学计算机与信息学院,安徽合肥 231009）

收稿日期:2020-02-21 修回日期:2020-04-27 接受日期:2021-02-25 出版日期:2021-02-25 发布日期:2021-02-23
基金资助:
国家自然科学基金（61371156）

Object detection based on multi-scale feature fusion and residual attention mechanism

LI Ben-gao，WU Cong-zhong，XU Liang-feng，ZHAN Shu

（School of Computer and Information,Hefei University of Technology,Hefei 231009,China）

Received:2020-02-21 Revised:2020-04-27 Accepted:2021-02-25 Online:2021-02-25 Published:2021-02-23

摘要/Abstract

摘要： 作为一个多任务的学习过程，目标检测相较于分类网络需要更好的特征。基于多尺度特征对不同尺度的目标进行预测的检测器性能已经大大超过了基于单一尺度特征的检测器。同时，特征金字塔结构被用于构建所有尺度的高级语义特征图，从而进一步提高了检测器的性能。但是，这样的特征图没有充分考虑到上下文信息对语义的补充作用。在SSD基准网络的基础上，采用残差注意力的特征融合方法充分利用上下文信息，提高特征图的表征能力，然后利用残差注意力机制强化关键特征。在基准数据集PASCAL VOC上的实验表明，所提方法在输入图像尺寸为300×300和512×512情况下的mAP分别为78.8%和807%。

关键词: 目标检测, 特征融合, 注意力机制, 多尺度特征, 上下文信息

Abstract: As a multi-task learning process, object detection requires better features than classification task. Detectors that predict different scale objects based on multi-scale features have greatly surpassed detectors based on single-scale features. In addition, the feature pyramid structure is used to build advanced semantic feature maps of all scales, thereby further improving the performance of the detector. However, such feature maps do not fully consider the complementary role of contextual information to semantics. Based on the SSD baseline network, a feature fusion method based on residual attention mechanism is used to make full use of the context information. Not only can the high-resolution feature representation capabilities be enhanced by feature fusion, which is more helpful for detecting small-scale objects, but also the attention mechanism is used to strengthen the key features required for prediction. The performance of the model is evaluated on benchmark data set PASCAL VOC, the map of the model with input image sizes of 300 × 300 and 512 × 512 is 78.8% and 80.7%.

Key words: object detection, feature fusion, attention mechanism, multi-scale feature, contextual information

李本高, 吴从中, 许良凤, 詹曙. 基于多尺度特征融合和残差注意力机制的目标检测[J]. 计算机工程与科学, 2021, 43(02): 347-353.

LI Ben-gao, WU Cong-zhong, XU Liang-feng, ZHAN Shu. Object detection based on multi-scale feature fusion and residual attention mechanism[J]. Computer Engineering & Science, 2021, 43(02): 347-353.

编辑推荐

Metrics

阅读次数

全文

440

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	440

来源	本网站	其他网站

次数	389	51
比例	88%	12%

摘要

523

最新录用	在线预览	正式出版

0	0	523

	来源	本网站

	次数	523
	比例	100%

[1]	徐超, 阮荣耀, 陈勇, . 一种基于区块链的医疗数据审计方法[J]. 计算机工程与科学, 2025, 47(01): 95-106.
[2]	陈兆波, 张琳, 马晓轩. 改进注意力混合自动编码器视频异常检测研究[J]. 计算机工程与科学, 2025, 47(01): 130-139.
[3]	马金林, 闫琦, 马自萍. 西夏文字的多层掩码识别方法[J]. 计算机工程与科学, 2024, 46(12): 2227-2238.
[4]	戴康佳, 徐慧英, 朱信忠, 黄晓, 李琛, 刘巍, 曹雨淇, 王拔龙, 刘子洋, 陈国强. 基于轻量化目标检测网络的RGB-D视觉SLAM系统[J]. 计算机工程与科学, 2024, 46(11): 2017-2026.
[5]	付燕, 杨旭, 叶鸥. 基于CNN和Transformer特征融合的烟雾识别方法[J]. 计算机工程与科学, 2024, 46(11): 2045-2052.
[6]	曹雨淇, 徐慧英, 朱信忠, 黄晓, 陈晨, 周思瑜, 盛轲. 基于YOLOv8改进的打架斗殴行为识别算法：EFD-YOLO[J]. 计算机工程与科学, 2024, 46(10): 1825-1834.
[7]	陈清江, 邵菲, 王炫钧. 混合U型网络与Transformer的图像去模糊[J]. 计算机工程与科学, 2024, 46(10): 1843-1851.
[8]	余佳妮, 胡朝霞, 蒋从锋. 一种基于多特征的日志事件异常检测方法研究[J]. 计算机工程与科学, 2024, 46(09): 1587-1597.
[9]	陈磊, 梁正友, 孙宇, 蔡俊民. 多尺度特征融合的移动端单目深度估计研究[J]. 计算机工程与科学, 2024, 46(09): 1616-1524.
[10]	刘国岐, 何廷年, 荣艺煊, 李卓然. 基于用户轨迹和好友关系的兴趣点推荐[J]. 计算机工程与科学, 2024, 46(09): 1693-1701.
[11]	刘子洋, 徐慧英, 朱信忠, 李琛, 王泽宇, 曹雨淇, 戴康佳. Bi-YOLO：一种基于YOLOv8n改进的轻量化目标检测算法[J]. 计算机工程与科学, 2024, 46(08): 1444-1454.
[12]	陈晨, 徐慧英, 朱信忠, 黄晓, 宋杰, 曹雨淇, 周思瑜, 盛轲. 基于YOLOv8 改进的室内行人跌倒检测算法FDW-YOLO[J]. 计算机工程与科学, 2024, 46(08): 1455-1465.
[13]	刘晓华, 徐茹枝, 杨成月. 一种基于多特征融合嵌入的中文命名实体识别模型研究[J]. 计算机工程与科学, 2024, 46(08): 1473-1481.
[14]	张永智, 何可人, 戈珏. 改进YOLOv7网络在低空遥感图像目标检测中的应用[J]. 计算机工程与科学, 2024, 46(07): 1269-1277.
[15]	王泽宇, 徐慧英, 朱信忠, 李琛, 刘子洋, 王子奕. 基于YOLOv8改进的密集行人检测算法：MER-YOLO[J]. 计算机工程与科学, 2024, 46(06): 1050-1062.