人工智能技术和计算机视觉技术的发展,为舰载导弹准确攻击各类海上、陆上目标识别提供了新的技术支持,基于深度学习的自动目标识别技术对提高导弹寻的制导精度提供了新的技术保证。介绍了多种基于卷积神经网络的目标识别算法,应用YOLOv3和Cascade R-CNN算法进行了导弹目标识别检测实验。实验结果表明,二种算法各有千秋,YOLOv3算法的准确率和召回率低于Cascade R-CNN,但其检测效率高于Cascade R-CNN,因此在目标识别过程中,采用深度学习算法是导弹提高攻击目标准确性的一种有效途径。 The development of artificial intelligence technology and computer vision technology provides a new technical support for the shipborne missile to attack all kinds of sea and land targets accu-rately. The automatic target recognition technology based on deep learning provides a new technical guarantee for improving the accuracy of missile target recognition. This paper intro-duces a variety of target recognition algorithms based on convolutional neural network and ap-plies the YOLOv3 and Cascade R-CNN algorithm to the missile target recognition and detection experiments. The experimental results show that the two algorithms have their own advantages. The accuracy and recall rate of YOLOv3 algorithm are lower than that of Cascade R-CNN, but its detection efficiency is higher than that of Cascade R-CNN. In the process of target recognition, using deep learning algorithm is an effective way for missiles to improve the accuracy of attack-ing targets.
刘志赢1,谢春思2,李进军2,桑雨1
1海军大连舰艇学院学员五大队,辽宁 大连
2海军大连舰艇学院导弹与舰炮系,辽宁 大连
收稿日期:2020年3月4日;录用日期:2020年3月19日;发布日期:2020年3月26日
人工智能技术和计算机视觉技术的发展,为舰载导弹准确攻击各类海上、陆上目标识别提供了新的技术支持,基于深度学习的自动目标识别技术对提高导弹寻的制导精度提供了新的技术保证。介绍了多种基于卷积神经网络的目标识别算法,应用YOLOv3和Cascade R-CNN算法进行了导弹目标识别检测实验。实验结果表明,二种算法各有千秋,YOLOv3算法的准确率和召回率低于Cascade R-CNN,但其检测效率高于Cascade R-CNN,因此在目标识别过程中,采用深度学习算法是导弹提高攻击目标准确性的一种有效途径。
关键词 :导弹末制导,自动目标识别,Cascade R-CNN,YOLOv3
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着武器装备的发展日趋智能化,自动目标识别(Automatic target recognition, ATR)成为导弹末制导研究的重要课题 [
2006年,深度学习被Geoffrey Hinton提出并迅速应用于计算机视觉领域 [
深度学习是机器学习的一个重要分支。与传统经典机器学习算法相比,深度学习神经网络模型的中间隐层数量更多,结构更为复杂,可通过逐层训练和迭代循环,实现对复杂函数的逼近。样本数据的高级特征是通过对其低级特征进行抽象运算获取的,具备学习样本数据更为本质特征的能力 [
CNN网络是一种适合处理空间数据(如图像、视频)的前馈式神经网络,受视觉神经科学的启发,具备自主分层学习数据的能力 [
图1. CNN网络结构
1989年Yann LeCun首次提出CNN模型 [
目标识别算法 | 处理器 | 数据集 | mAP | FPS |
---|---|---|---|---|
Fast R-CNN | Geforce GTX TiTan X | VOC2007 + 2012 | 70.0 | 0.5 |
Faster R-CNN | 73.2 | 7 | ||
SSD500 | 76.8 | 19 | ||
YOLO | 63.4 | 45 | ||
YOLOv2 (416) | 76.8 | 67 | ||
SSD500 | Pascal TiTan X | COCO test-dev | 31.2 | 8 |
YOLOv2 (416) | 21.6 | |||
Faster R-CNN | 34.9 | |||
Cascade R-CNN | 42.8 | |||
YOLOv3 (416) | 31.0 | 35 |
表1. 各算法目标检测性能比较
由表1可知,在识别平均准确率方面,VOC数据集中SSD500最高达到76.8%,但其在COCO集中仅为31.2%,与YOLOv3的31.0%相当,低于Cascade R-CNN的42.8%;每秒检测帧数方面,VOC数据集中SSD500为19 fps,YOLOv2 (416)最高为67 fps,但在COCO集中YOLOv3 (416)达到35 fps,远高于SSD500的8 fps。基于以上分析,Cascade R-CNN在双步检测算法中识别准确率最高,YOLOv3在兼顾单步检测算法高速检测能力的基础上,识别准确率有较大提升。
Cai Zhaowei [
Faster R-CNN目标识别流程如图2所示。首先将图像输入CNN网络进行特征提取,生成特征图;然后利用RPN网络提取出候选区域框,与特征图最后一层合并生成候选区域特征;再利用兴趣区域(ROI)池化层将候选区域特征输入到全连接层;最后利用SoftMax分类器进行分类识别。
图2. Faster R-CNN算法目标识别流程
Cascade R-CNN网络目标识别流程如图3所示。将图片输入CNN网络进行特征提取,生成特征图;然后在Faster R-CNN (红色框内)中进行分类和回归操作;将回归产生的边框1输入RPN网络再次候选区域操作,不同的是IOU指标阈值更高,如此操作两次,得到回归边框2和3;最终将所有分类结果和回归边框输出
图3. Cascade R-CNN算法目标识别流程
2016年,Redmon在CVPR2016会议上提出了一个基于深度卷积神经网络的端到端目标识别模型——YOLO (You only look once)模型 [
YOLOv3模型的网络结构如图4所示,使用DarkNet53模型作为目标特征提取网络。首先将输入的图像放缩到416 × 416大小,DarkNet53网络将图像按照预先设定的特征图尺度大小(13 × 13, 26 × 26, 52 × 52)划分为S × S个相同尺寸的单元格,然后将提取的浅层特征和深度特征融合获得特征金字塔,最后再依据每个单元格每种尺度下对应的3个锚框(anchor box)回归预测3个边框(bounding box)。YOLOv3的多尺度融合设计有效改善了YOLO系列算法对小尺度目标识别能力弱的缺点,成为兼顾检测精度和速度的优异算法 [
图4. YOLOv3算法目标识别流程
基于以上分析,将两类目标识别算法中具有代表性的Cascade R-CNN和YOLOv3应用到导弹目标识别领域中,通过目标检测实验比较不同算法的优劣性。
值得注意的是,当前算法将目标识别为不同的“种类”,如建筑、车辆、飞机等。而在军事行动中,每一枚导弹所要打击的目标是确定的“个体”,而不是同种类的其他“个体”,如建筑A、车辆A等,这就要求训练样本数据集必须源自单一待打击目标。假定某岛屿为导弹待打击目标,本文通过搜集该岛屿的互联网图集和航拍视频,将视频分解为图像帧,并通过数据增广,构建了一个包含7500张图像的该岛屿样本数据集用于模型的学习和训练。设定训练集和测试集的比例分别为0.8和0.2,实验平台参数为:Intel(R) Core(TM) i5-8400 CPU@2.80GHz处理器,8G内存,4G NVIDIA GeForce GTX 1050 Ti GPU。部分样本数据集如图5所示。
图5. 样本数据集部分图像
为节省网络的训练时间,加快模型的收敛速度,利用已有权重文件进行预训练。实验中,在Cascade R-CNN模型和YOLOv3模型训练环节,设置循环次数为2000,初始学习率为0.005,利用Adam优化器,根据返回的损失函数实时调整学习率,循环1500次时调整学习率为0.001,避免模型陷入局部最小;在测试环节,分别将测试集输入到Cascade R-CNN模型和YOLOv3模型中,当预测的目标边框与标注的边框IOU > 0.5时认为识别正确, 否则识别错误。识别结果如图6和图7所示,两个模型都能实现对设定岛屿的识别。
图6. Cascade R-CNN算法对设定岛屿识别结果
图7. YOLOv3算法对设定岛屿识别结果
实验以准确率P (Precision)、召回率R (Recall)、平均精确度AP (Average Precision)和每秒检测张数FPS为指标,客观评价两个模型性能。准确率表达了模型“识准”的能力,召回率表达了模型“识全”的能力,二者计算方法如式1~2所示,式中TP表示真正例,即预测结果和实际结果都为正;FP表示假正例,即预测结果为正,实际结果为负;FN表示假负例,即预测结果为负,实际结果为正。
P = T P T P + F P (1)
R = T P T P + F N (2)
测试集共含1500张320 × 240的图片,经统计包含设定岛屿目标的图片有1454张。Cascade R-CNN模型正确识别该岛屿目标的个数为1429个,误判为岛屿目标的个数为106个,测试总耗时178.5 s;YOLOv3模型正确识别该岛屿目标的个数为1403个,误判为岛屿目标的个数为311个,测试总耗时40.2 s;传统HOG + SVM目标识别算法正确识别该岛屿目标的个数为979,误判为岛屿目标的个数为358个,测试总耗时超过1小时。两个模型与HOG + SVM的客观指标对比如表2所示,准确率–召回率曲线如图8所示。
图8. 准确率–召回率曲线
目标识别算法 | P | R | AP | FPS |
---|---|---|---|---|
HOG + SVM | 73.22% | 67.33% | 53.84% | <0.42 |
Cascade R-CNN | 93.1% | 98.3% | 95.6% | 8.4 |
YOLOv3 | 81.9% | 96.5% | 88.7% | 37.3 |
表2. Cascade R-CNN和YOLOv3算法在导弹目标识别中的性能比较
分析表2和图8可知,针对设定的导弹打击某岛屿目标,与传统机器学习目标识别算法相比,基于Cascade R-CNN和YOLOv3算法的目标识别模型准确性和实时性均有极大提高。其中,Cascade R-CNN算法的目标识别模型准确率、召回率和AP值分别比基于YOLOv3算法的目标识别模型高11.2%、1.8%和6.9%;检测速度方面,YOLOv3模型每秒检测帧数达37.3 fps,是Cascade R-CNN模型(8.4 fps)的4.4倍。Cascade R-CNN算法的准确性更高,YOLOv3算法实时性更好。
针对导弹目标识别技术的现实需求,介绍了近年来深度学习网络模型的发展状况和基于深度卷积神经网络的目标识别算法,将具有代表性的Cascade R-CNN和YOLOv3算法应用到导弹目标识别领域并进行了比较,得出如下结论:
1) 基于深度学习算法的目标识别模型性能远远优于基于传统机器学习的识别算法;
2) 基于Cascade R-CNN算法的目标识别模型的准确率和召回率均比基于YOLOv3算法的目标识别模型高;
3) YOLOv3模型的FPS是Cascade R-CNN模型的4.4倍,检测效率远高于Cascade R-CNN模型。
后续工作将结合Cascade R-CNN算法的准确性和YOLOv3算法的快速性,兼顾检测速度和精度,研究新的目标识别算法,使之更适用于导弹目标识别领域。
刘志赢,谢春思,李进军,桑 雨. Cascade R-CNN和YOLOv3在导弹目标识别中的应用Application of Cascade R-CNN and YOLOv3 in Missile Target Recognition[J]. 图像与信号处理, 2020, 09(02): 102-110. https://doi.org/10.12677/JISP.2020.92013