手机版
您的当前位置: 恒微文秘网 > 范文大全 > 专题范文 > 基于跨域双分支对抗网络车辆重识别策略

基于跨域双分支对抗网络车辆重识别策略

来源:专题范文 时间:2024-10-14 09:00:02

陈凯镔,王从明,陶沙沙,李香红

(1.成都工业职业技术学院,四川 成都 610218;
2.河南理工大学能源科学与工程学院,河南 焦作 454003)

近年来,用于交通控制和安全的视频监控对当前的公共交通系统产生了越来越大的影响,因此,相关研究在计算机视觉领域引起了越来越多的关注,并取得了很大的进展,如车辆检测、分类等应用[1-2]。与上述任务不同的是,车辆重识别(re-identification,reID)的目标是精确匹配从多个非重叠的摄像机捕捉到的特定车辆场景,该项技术能够以更少的时间和人力来自动地进行标识,这对智能城市的构建起着至关重要的作用[3]。

虽然车辆重识别技术已经取得了一定的进展,但是如何设计算法来适应不同场景之间的域偏差仍然是整个系统的关键。主要由于车辆重识别面对真实世界场景,在不同场景下拍摄的同一辆车可能呈现出不同的视觉外观,另外,对于一个域,它不可能包含真实场景中所有的案例,这使得不同的域有自己独特的风格,导致了域之间的偏差。因此跨域学习方法得到了广泛的应用。文献[4]采用了一个有条件的GAN来学习从输入到输出图像的映射,这种方法结合了敌方损失和一级损失,但是训练数据的成对性很难获得。文献[5]在重识别任务中引入了一个属性语义和身份鉴别特征表示空间,该空间可以转移到任何新的目标域,而不需要从目标域收集新的标记训练数据。虽然上述域迁移方法已经证明在人脸识别上取得了较好的效果,但是在训练过程中,有些算法需要额外的源域信息,如属性标签和时空标签,这些信息在某些数据集中并不存在,另外对于车辆重识别存在车辆的变形和颜色失真等情况。

除此之外,基于深度网络的特征学习已成为车辆领域的一种普遍做法。文献[6]提取车辆的全边缘三维边界框,然后利用颜色直方图和定向梯度直方图,用线性回归方法求解重识别问题。文献[7]引入车牌信息、视觉特征和时空关系,采用渐进式策略学习车辆图像之间的相似度得分。文献[8]提出了一种群体敏感的三元组嵌入方法来处理学习表征中的类内方差,并给出了均值三元组损失,以减轻不适当的三元组抽样带来的负面影响。但是上述深度学习方法需要进行大量的学习训练,且对不同场景的适应性较差。

为了解决上述问题,提出了一种基于跨域双分支对抗网络车辆重识别策略,通过双分支对抗网络实现源域信息的挖掘与保留,引入的结构注意力机制进一步挖掘显著特征。数据集的试验结果证明了提出的方法能够保证重识别精度的同时提升泛化能力,证明了方法的有效性。

2.1 方法概述

最终目标是在一个不直接标记的未知目标域中搭建车辆reID 模型。车辆重识别的自适应框架模型(Domain Adaptation Framework for Vehicle reID,DAVR)包含用于生成图像的双分支对抗网络和用于训练reID 模型的注意力网络(Attention-Based network,ATTNet),如图1 所示。通过双分支对抗网络(Dual-Branch Adversarial Network,DAN),可以获得具有目标域的图像,并保留源域的车辆信息。然后以转换后图像为数据集,利用ATTNet对车辆reID模型进行训练。

图1 车辆重识别的自适应框架Fig.1 Adaptive Frame of Vehicle reID

2.2 双分支对抗网络

DAVR中的DAN模型,既可以在源域和目标域之间进行模式传递,又可以保留源域图像的车辆信息。DAN由生成器G、F和两个域的域鉴别器DS、DT组成,如图2所示。

图2 DAN模型结构图Fig.2 Structure of DAN Model

对于DAN中的每一个生成器,由三部分组成:内容编码器Ec、模式编码器Es以及解码器De。通过提出的注意力机制模型,Ec可以在抑制背景的同时提取前景,从而保留源域图像中的身份信息。为了学习目标域的模式,在转换网络中加入存在模式损失的Es。最后,解码器嵌入Ec和Es的输出,生成翻译后的图像。以域X为例,内容编码器将图像映射到域不变的内容空间(:x→Cx),样式编码器将图像映射到Y的域样式空间(:x→Sy)。生成器G根据内容和样式向量生成图像(De:{Cx,Sy→G(X)})。鉴别器DS的作用是在域X中区分真实图像和转换图像。

2.2.1 内容编码

将生成器的输入图像定义为I,如图3所示。经过三个步长为0.5的步进卷积块,可以得到特征图fshare。在假设两个域共享一个潜在空间的基础上,在Ecg和Ecf之间共享这三个卷积块的权重。每个卷积块包含一个卷积层、一个归一化层和一个ReLU层。然后将fshare传递给包含九个ResBlocks的后续网络和所提出的注意力机制模型。为了保留源域中的车辆信息,删除了原始ResNet结构中的批处理归一化层。注意力机制模型的设计是为了在抑制背景的同时,对特征显著区域分配较高的视觉注意分数。

图3 生成器结构Fig.3 Structure of Generator

如图3 所示,将注意力机制模型的输入特征映射表示为f。将ResBlock的所有输出整合成f,形式为f=[fr1,fr2,…,fr9],其中fri是第i个ResBlock生成的第i个特征映射。i∈[1,9]和[·]表示串联操作。对于特征图在空间位置(i,j)的特征向量fi,j∈RC,可以用下式计算出其对应的注意MASKai,j

其中,FC(·)—用于学习注意模块中映射函数的全连接层;
Wa—FC的权重。MASKα=[ai,j]是使用Sigmoid 层获得的概率图,得分表示输入图像中前景的概率。在注意力模型之后,生成一个前景得分较高的MASK。因此,被关注特征映射fc由注意MASK与输入特征映射的元素乘积计算得到:

其中,(i,j)—MASKa或特征映射fc的空间位置;
⊗—元素乘积运算符号。

2.2.2 模式编码器

除了源域内容分支之外,还有一个学习目标域风格的分支,如图4所示。在这一分支中,不同于和,模式网络和不包含注意力机制模型。例如由3个与内容编码器网络相同的卷积块和9个ResBlocks组成,3个卷积块与内容编码器网络共享参数。为了学习目标域的模式,设计了带有模式损失的,输出与目标域Y分布相似的模式特征fs,模式损失的公式如下:

图4 ATTNeT的结构Fig.4 The Structure of ATTNeT

通过计算源域和目标域图像的模式损失来比较图像之间的信息差异。因此不同领域的图像可以相互学习对方的模式。

2.2.3 解码器网络

对于解码网络,它由2个反卷积层和1个卷积层组成,输出生成的图像G(I) 。

解码器网络的输入是fc和fs的组合,它们分别表示内容特征和样式特征,如图4所示。采用级联层将fc与fs相结合,并采用全局跳跃全连接结构,使训练速度更快,模型的泛化能力更好,可以表示为:

式中:[·]—连接层;
fe2—第2步卷积块生成的特征映射。

2.2.4 损失函数

将DAN中的损失函数表示为对抗性损失、循环一致性损失、车辆信息损失和模式损失的叠加。对抗性损失和模式损失有助于域迁移网络的学习,车辆信息损失和循环一致性损失保持了跨域类内实例的语义一致性和视觉相似性。目标函数可以描述如下:

其中模式损失Lstyle的计算公式如式(3)。DAN 将对抗性损失应用于这两个映射函数。对于发生器F及其鉴别器DT,目标损失可以表示为:

式中:X、Y—表示源域和目标域;
Pdata(x)、Pdata(y)—在源域和目标域中的样本分布。还可以建立发生器G和鉴别器DS的目标。

另外,当学习到F和G的映射时,DAN 满足F(G(x))≈x和G(F(y))≈y。因此,在DAN 中引入了循环一致性损失,使网络更加稳定。循环一致性损失可定义为:

DAN 利用目标域信息约束辅助图像转换,文献[9]引入目标域恒等约束,将生成器正则化为目标域样本上的恒等矩阵,描述如下:

2.3 注意力网络

特征学习模块的目的是获取可用于识别车辆的特征。在特征学习模型的训练过程中,为了使reID模型能够适应目标区域,在训练特征学习模型时,最好集中在车辆图像中有显著特点的信息并且忽略背景信息。因此,设计了一个包含注意力机制的双分支ATTNet。

ATTNet 是一个双分支结构,由识别网络和验证网络组成,而且两者之间共享参数。来自生成模块的图像被分成正样本对和负样本对作为ATTNet的输入,如图4所示。

具有相同车辆识别信息的图像是正样本对,否则为负样本对。对于一个分支,输入图像被送入5 个ResNet 模块,输出7×7×2048 大小的特征映射fr,然后将它们传递到全局平均池化层(GAP)以获得特征映射fg。通过所提出的注意力机制结构,利用fg生成MASK M。给定特征映射fg,其注意力映射的计算公式如下:

其中一个Conv算子是1×1大小的卷积核。在得到注意图M后,由fm=fg⊗M计算被关注的特征图,⊗是元素乘积符号。然后,被关注的特征图fm将被输入到后续结构中。然而,由于多个训练图像可能是空间错位的,因此获得的注意MASK M的精确度可能不高,并且所关注的特征图fm可能受到噪声的干扰,这将导致原始图像中的fm包含的信息都是无用的。

为了解决这一问题,引入了一种快捷连接结构,将注意力网络的输入直接嵌入到其输出中,该层可以描述为fg+fm。该方法将原始特征映射和参与特征映射相结合形成特征fs,并作为后续结构的输入。经过两层FC后,可以得到特征fd。最后,FC利用跳跃连接结构将fg和fd进行集成,以获得更具区分性的识别特征,可以用fa=[fd,fg]进行描述。

3.1 数据集和实验设置

VeRi-776是reID的一个大型城市监控车辆数据集,包含了776辆车辆的50000多张图像,其中包含车辆信息的标注、摄像头位置、图像时间戳、车辆类型和颜色信息[10]。以576辆车的37781幅图像作为训练集,以200辆车的11579幅图像作为测试集。测试集中的1678个图像作为查询集合,如图5所示。

图5 数据集示例Fig.5 Sample Dataset

VehicleID 是来自真实场景的监控数据集,共包含26267辆车辆和221763 张图像。从原始测试数据中提取出800 辆、1600辆、2400辆和3200辆四个子集,用于不同规模的车辆搜索[11]。在测试过程中,从一类车中随机抽取一幅图像,得到一个包含800幅图像的图库集,其余图像全部用作探针图像。其他三个测试集以相同的方式处理。

对于车辆reID任务,利用CMC曲线和mAP来评估reID模型的性能。对于每个查询,其平均精度(AP)是根据其精度召回曲线计算的,mAP是所有查询平均精度的平均值。

对于转换模块,采用Tensorflow框架进行训练模型[12],学习率设为0.0002。该方法的最小批大小为16,Epoch设为6。在测试过程中,使用了VeRi-776→VehicleID 转换的生成器G 和VeRi-776→VehicleID 转换的生成器F,转换后的图像用于训练reID模型。

对于特征学习模块,基于Matconvnet 框架训练本文提出的车辆reID模型[13]。在训练过程中,利用动量μ=0.0005的随机梯度下降。前50个Epoch的学习率设为0.1,后5个Epoch的学习率设为0.01。由于数据集的规模非常大,训练数据被随机分成小批量,批大小为16。

3.2 结果分析

为了验证模型的有效性,基于VehicleID 和VeRi-776 数据集对DAN 进行训练。并和CycleGAN 和SPGAN 算法进行比较。比较结果,如图6所示。在图6(a)中是用来自VeRi-776的身份信息和VehicleID生成的图像,图6(b)是使用来自VehicleID的身份信息和VeRi-776生成的图像。对于每组,第一行是VeRi-776中的原始图像。第二行和第三行分别是由CycleGAN 和SPGAN生成的图像。最后一行是由DAN生成的图像。

图6 生成图像的效果Fig.6 The Effect of the Generated Images

从图6(a)可以看出,在将图像从VehicleID 传输到VeRi776时,CycleGAN生成的大多数图像都严重失真。虽然SPGAN的效果比CycleGAN好,但是生成的图像也有明显的变形。然而,使用DAN方法,不仅可以完全保留车辆颜色和车型等信息,而且可以学习目标数据集的模式。从图6(a)中可以看到,DAN生成的图像具有更高的分辨率并且亮度更高,这是从VeRi-776中学习到的。在图6(b)中,将VeRi-776 传输到VehicleID 时比将VehicleID 传输到VeRi-776时,能更好地保存生成图像的车辆信息。DAN生成的图像中的细节也得到了很好的保留。

3.3 对比分析

详细讨论了几种方法,并与本文方法进行了比较。监督学习是由文献[14]提出的,它同时表示目标域上的训练和测试过程。直接迁移是指将源域图像训练的模型直接应用于目标域,将文献[15]的源域图像转化为目标图像。“B”代表基准文献[10]中的方法,ATTNet是提出的注意力特征学习网络。为了验证方法的有效性,进行了多个实验,其中训练集是由不同的图像经转换生成的图像。如表1、表2所示,分析了CycleGAN、SPGAN 和DAN 方法转换的图像的差异。与CycleGAN 相比,DAN 在VeRi-776 数据集上的mAP 和rank-1 分别提高了3.40%和2.09%。在VehicleID数据集上,与CycleGAN相比,不同测试集的rank-1分别提高了5.05%、6%、6.66%和5.79%。虽然SPGAN 在图像到图像的转换阶段比CycleGAN有更好的性能,但是在实际场景中,如图7所示。SPGAN 也会导致图像出现变形和颜色失真等问题。另外,与SPGAN相比,DAN在VeRi-776数据集上的mAP和rank-1分别提高了1.34%和0.41%。对于不同规模的VehicleID测试集,DAN的rank-1分别提高了1.57%、1.51%、1.56%和1.72%。这些所有结果都证明了DAN的结构更加稳定,可以生成适合目标域的训练样本。DAN转换的图像示例,如图6所示。此外,与其他方法相比,DAVR在VeRi-776数据集和VehicleID数据集上都能获得更好的性能。

表1 基于VeRi-776上不同域适应方法对不同reID方法的性能比较Tab.1 Performance Comparison of Different Domain Adaptation Methods to Different reID Methods Based on veri-776

表2 不同域适应方法在数据集上不同reID方法的性能Tab.2 Performance of Different reID Methods on Data Sets

图7 VeRi-776数据集的结果Fig.7 Results of the VeRi-776 Data Sets

比较有监督学习算法和直接迁移法,可以清楚地发现,在目标域上直接使用源训练模型时,性能下降很大。在VeRi-776上训练和测试的基准模型的mAP达到52.36%,如表1所示。而在VehicleID 数据集上训练和在VeRi-776上测试时的mAP下降到19.06%。从表2可以看出,当车辆ID被用作目标域时,mAP也降低了。在VeRi776上对reID模型进行训练并在VehicleID上进行测试时,基准模型在不同大小的VehicleID测试集上的mAP分别下降了32.35%、35.21%、36.32%和34.73%。性能下降的原因是不同域的数据分布存在偏差,该域上的监督学习方法也不能直接应用于该领域。

3.4 分块研究

3.4.1 DAN的影响

首先利用DAN将标记图像从源域转换到目标域,然后用监督的方式训练基准reID 模型。如表1所示,当在VehicleID 数据集上进行训练并在VeRi-776上进行基准测试时,mAP从19.06%提高到24.85%。如表2所示,reID模型在VeRi-776训练集上使用基准法进行训练,并在VehicleID 不同测试集上进行测试,Rank1 分别从35% 提高到44.44%,30.42% 提高到38.97%,27.28%提高到35.10%,25.41%提高到32.17%。通过DAN 图像级域自适应方法,可以学习有效的域自适应基准方法。这说明图像转换方法从目标域中学习了重要的模式信息,在一定程度上缩小了域间差距。

3.4.2 ATTNet的影响

为了进一步提高目标数据集的re-ID性能,提出了ATTNet。基于不同方法在VeRi-776数据集和VehicleID数据集上的CMC结果,如图7、图8所示。与使用基准reID模型训练的reID模型相比,使用ATTNet方法的性能更好。

图8 车辆ID上不同方法的CMC曲线Fig.8 CMC Curves of Different Methods on Vehicle ID

从表3和表4可以看出,当reID 模型在VehicleID 上进行训练并在VeRi-776上进行测试时,与直接迁移+基准方法相比,直接迁移+ATTNEt 的mAP 增加了4.35%。在VeRi-776 数据集上训练模型并在VehicleID 上进行测试时,不同测试集的Rank1分别提高了8.26%、9.05%、8.67%和7.99%。此外,与基准方法相比,利用ATTNet的reID模型对每种图像转换效果都有明显的改进。这说明用方法训练的reID模型比基准方法能更好地适应跨域任务。

表3 基于VeRi-776的不同reID模型的比较Tab.3 Comparison of Different Reid Models Based on VeRi-776

表4 基于数据集的不同reID模型的比较Tab.4 Comparison of Different reID Models Based on Data Sets

3.5 结果的可视化对比

为了进一步说明本文方法的有效性,本节将结果进行可视化对比分析。利用t-SNE将通过不同方法提取的特征可视化,如图9所示。reID模型在VehicleID数据集上进行训练,并在VeRi-776数据集上使用原始图像通过基准方法进行测试,如图9(a)所示。reID 模型使用ATTNet 训练,图像由DAN 在VehicleID 数据集上生成,并在VeRi776 上测试,如图9(b)所示。reID 模型在VeRi-776 上用基准法训练原始图像,并在VehicleID 上进行测试,如图9(c)所示。利用DAN 在VeRi-776上生成的图像,使用ATTNet对reID模型进行训练,并在VehicleID上进行测试,如图9(d)所示。t-SNE本质上来说就是要找到一个投影方法,使得降维后,数据之间的分团信息得以保存。在实验中,在VeRi-776和VehicleID上测试的车辆数分别为200800辆,从可视化结果可以看出,提出方法的数据分布相对于基准方法更加的分散,说明提出方法能够更加有效的保存相关数据信息,进一步证明了提出的方法在特征提取上的性能有了显著的改进。方法DAVR 在VeRi-776和VehicleID上的车辆reID结果示例,如图10所示。在图10(a)和图10(b)中,左侧是查询图像,右侧图像是通过本文方法获得的检索结果。左上角的数字表示VeRi-776数据集中的车辆ID、摄像头ID和VehicleID数据集的车辆ID。同一车辆标识表示同一辆车。摄像机ID是捕捉图像的摄像机编号。

图9 特征分布t-SNE图Fig.9 t-SNE Diagram of Characteristic Distribution

图10 识别结果Fig.10 Identification Results

从图10可以看出,提出的域自适应方法取得了良好的性能。特别地,在图10(a)中,检索结果包含不同的视点和光照,说明方法在不同的条件下具有较好的鲁棒性。

为了减轻域偏差,提升算法的应用泛化能力,提出了一种基于跨域双分支对抗网络车辆重识别策略。通过分析两个车辆重识别数据集试验结果可以得出结论:(1)提出的方法具有更高的车辆重识别精度,且对与环境具有更好的泛化能力与鲁棒性,有效的提升了实际应用效果;
(2)引入的双分支对抗网络能够从目标域中学习重要的模式信息,并且保存源域中的相关信息,有效的减小了源域与目标域间差距,提升了迁移学习的效果;
(3)引入的注意力机制网络能够更加有效的挖掘显著特征,对提升再识别的精度有较大作用。

猜你喜欢 源域集上车辆 多源域适应方法综述计算机技术与发展(2024年3期)2024-03-25基于参数字典的多源域自适应学习算法计算机技术与发展(2020年11期)2020-12-04Cookie-Cutter集上的Gibbs测度数学年刊A辑(中文版)(2020年2期)2020-07-25链完备偏序集上广义向量均衡问题解映射的保序性数学物理学报(2019年6期)2020-01-13车辆小太阳画报(2018年3期)2018-05-14复扇形指标集上的分布混沌数学物理学报(2017年5期)2017-11-23冬天路滑 远离车辆阅读与作文(小学低年级版)(2016年12期)2016-12-22车辆出没,请注意少年博览·小学低年级(2016年9期)2016-11-24提高车辆响应的转向辅助控制系统汽车文摘(2015年11期)2015-12-02可迁移测度准则下的协变量偏移修正多源集成方法电子与信息学报(2015年12期)2015-08-17

恒微文秘网 https://www.sc-bjx.com Copyright © 2015-2024 . 恒微文秘网 版权所有

Powered by 恒微文秘网 © All Rights Reserved. 备案号:蜀ICP备15013507号-1

Top