浅述基于深度强化学习的鸟群检测与应用

2022-12-24 01:55:13 第一文档网 [ 字体：小中大 ] [

阅读： ] [

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。下载word有问题请添加QQ：admin处理，感谢您的支持与谅解。

【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《浅述基于深度强化学习的鸟群检测与应用》，欢迎阅读！
鸟群,深度,强化,基于,检测

浅述基于深度强化学习的鸟群检测与应用

摘要飞机在起飞和下降的过程一旦受到飞鸟的撞击，会导致机毁人亡的惨剧。使用摄像头捕获机场的图像然后检测出鸟群出现的位置进行驱赶，能够提高机场工作人员的工作。基于深度学习的卷积神经网络近些年在物体检测领域取得了突破性的研究和进展，该算法使用卷积网络用于机场的鸟群检测，然后在进行人工的驱赶。考虑到现有的基于区域的物体检测算法需要在大量的候选框基础上进行边框回归消耗了大量的时间，基于此，本文提出基于深度强化学习的飞鸟检测算法。实验表明，本文提出的检测算法能够在提升检测的效率同时保证检测的精度。

关键词深度学习；强化学习；物体检测；卷积网络

前言

飞机作为最便捷的交通工具受到人们的广泛喜爱。由于飞机的飞行速度快，在起飞和下降的过程中如果和飞鸟碰撞则会导致机毁人亡的惨剧。因此飞机场每年都会花费大量的人力和物力进行飞鸟驱赶任务，其中检测环节最为重要。

近些年基于深度学习的卷积神经网络[1]在计算机视觉领域取得了突破性的研究和进展，例如图像分类，物体分割和识别。基于深度学习的物体检测算法首先使用selective search算法生成一些候选区域，然后将这些局部区域作为卷积网络的输入学习方框中包含物体的类别，并且使用边框回归算法进行位置的细化。基于区域的物体检测算法虽然检测精度较高，但是时间效率低下。基于此本文提出基于深度强化学习的飞鸟检测算法。

强化学习[2]属于机器学习的领域范畴，使用智能体与环境进行交互，在不同的状态下执行不同的动作，环境会给出对应的奖励值。强化学习通过最大化累计的奖励值优化目标函数，学习状态和动作的映射关系。将强化学习引入飞鸟检测领域使用“智能”的滑动窗口在图像中寻找物体的位置。通过实验表明，基于深度强化学习的飞鸟检测算法在8个步骤之内就能够找到飞鸟的大概位置，由于飞鸟检测任务仅是为了找出鸟的大概位置，然后在进行人工驱赶，因此本文所提出的深度强化学习物体检测算法能够满足实际的需求，完成机场飞鸟检测的任务。

1 飞鸟检测

本章首先介绍了卷积神经网络和强化学习基本概念，然后详细的阐述了本文提出的基于深度强化学习的物体检测算法。

1.1 深度强化学习

卷积神经网络属于深度学习领域算法，通过大量的卷积核学习输入图像和标签之间的映射关系。卷积网络由卷积层，池化层和全连接层组成。卷积层用于提

取图像的局部细节纹理特征，例如颜色，纹理和梯度。池化层对特征图进行下采样操作，减小网络参数规模提升参数的拟合能力。全连接层将卷积层提取的局部特征转化为全局的语义信息。

强化学习通过最大化轨迹关于奖励的期望值优化目标函数。区别于监督学习算法，强化学习在每个状态下没有标签与之对应，而监督学习在每个状态下均有对应的指导信号。传统的基于滑动窗口机制的物体检测算法类似于序列决策机制，使用候选框在图像中寻找物体的位置。因此可以将图像作为卷积网络的输入提取图像的局部特征，使用强化学习模型设计目标函数。

1.2 物体检测

本章节介绍基于深度强化学习的飞鸟检测算法。首先定义了强化学习中的状态，动作和奖励值，其次介绍了算法整体框架。

状态：本文将自然图像和当前滑动窗口的位置作为强化学习模型当前的状态。

动作：通过改变图像中滑动窗口的位置寻找图像中物体的位置。本文定义了9种动作用来改变候选框的位置，包括向上，向下，向左向右的移动候选框和改变候选框的长和宽大小的四个动作以及最后的终止动作，终止动作代表找到了物体的位置。例如，如果向右移动则对应的位置变化为，表示滑动步长。

奖励值：候选框在图像中滑动，如果当前区域包含物体，则对应的奖励值设定为1，否则奖励值设定为0。由于状态空间巨大奖励值过于稀疏，使得模型难以优化。在此基础上添加了中间辅助的奖励值，如果当前预测的区域和标签的交叉面积大于上一时刻的交叉面积，则设定奖励值为1，否则奖励值设定为-1。

如上图1所示，表示本文提出的基于深度强化学习的飞鸟检测框架示意图。首先将输入图像放缩为，然后将处理过的图像经过卷积神经网（CNN）络编码为一维的特征向量，使用全连接层（fully connection， fc）表示。本文使用在数据集Image Net上预训练的VGG16网络架构用于特征提取。全连接层fc1，fc2和fc3的神经元个数分别为4096，1000和9。第二个全连接层fc2和历史的动作拼接作为fc3的输入，最后一个全连接层fc3的9个神经元表示在当前图像上执行的动作的概率。

2 实验分析

2.1 实现细节

本文使用Tensor flow实现深度强化学习的飞鸟检测算法。在数据集PASCAL VOC数据集上训练模型参数，然后将训练好的模型用于物体检测。批处理的大小设定为10，初始化学习率为0.001，滑动步长设定为0.2。使用随机梯度下降算法优化目标函数，权重衰减因子为0.0002，每经过10000次迭代后学习率变为

原来的0.1倍，动量因子设定为0.9。

2.2 可视化分析

由于在实际的场景中，很难从机场发现单独或者成群的飞鸟，因此本文使用Pascal VOC 2007鸟类的图像进行飞鸟检测，并且对智能体的滑动轨迹和检测结果进行可视化。

如上图2所示，表示深度强化学习的决策机制示意图。本文从PASCAL VOC中选择了两张包含飞鸟的图片，并且对滑动窗口的移动方向进行了可视化。从智能体的滑动步数来讲，强化学习模型在7个步骤内就找到了飞鸟，检测的速度较快于基于区域的物体检测算法。

表1表示在Pascal VOC数据集上针对飞鸟的查询精确度，可以发现本文提出的检测算法在检测精度和平均精准度上高于其他的非RCNN系列的物体检测算法。值得注意的是，虽然本文提出的飞鸟检测算法的精度低于RCNN，但是RCNN需要产生2000多个候选框用于物体检测，消耗了大量的时间，时间效率低下。因此从检测精度和执行时间来看，本文所提出的检测方法要略优于其他的飞鸟检测算法。

3 结束语

针对飞鸟检测任务，本文提出了基于深度强化学习的检测算法，该算法在图像上使用智能的滑動窗口方法寻找物体的位置，提升了飞鸟检测的效率和精度。通过实验对比分析，本文提出的飞鸟检测算法能够应用到实际的任务中提升机场工作人员的效率。

参考文献

[1] 周飞燕，金林鹏，董军.卷积神经网络研究综述[J].计算机学报，2017，40（6）：1229-1251.

[2] 张汝波，顾国昌.强化学习理论，算法及应用[J].控制理论与应用，2000，17（5）：637-642.

本文来源：https://www.dywdw.cn/cf4eae21e209581b6bd97f19227916888486b984.html