psp分辨率_psp分辨率能提高吗
- 时间:
- 浏览:67
- 来源:奥一装修网
前言:行人重新识别()也称为行人重新识别。本文简称为“使用计算机视觉技术来确定图像或视频序列中是否有特定的行人”。它被广泛认为是图像检索的一个子问题。给定监控的行人图像,跨设备检索行人图像。在监视视频中,由于摄像机的分辨率和拍摄角度,通常无法获得非常高质量的面部图像。当人脸识别失败时,它成为非常重要的替代技术。跨相机是一个非常重要的功能,因此在评估学术论文的性能时,有必要在不同的相机下检索相同的行人图片。它已经在学术界进行了多年的研究,但是直到最近几年,随着深度学习的发展,它才取得了巨大的突破。因此,本文介绍了近年来基于深度学习的一些工作。由于能量有限,它无法涵盖所有工作。只能介绍一些代表性作品。根据个人习惯,我将这些方法分为以下几类:论文使用和训练网络。网络示意图如下图所示。网络输入是几对行人图片,包括分类子网和验证子网。分类子网对图片进行预测,并根据预测结果计算分类误差损失。验证子网是否合并了两个图片的特征,以确定两个图片是否属于同一行人。子网本质上等于两类网络。经过足够的数据训练后,再次输入测试图片,网络将自动提取一个功能,该功能用于行人重新识别任务。但是也有论文指出,仅行人信息不足以学习具有足够泛化能力的模型。在这些作品中,他们还标记了行人图片的属性,例如性别,头发,衣服和其他属性。通过引入行人属性标签,该模型不仅必须准确地预测行人,而且还必须预测正确的行人属性,这大大提高了模型的泛化能力。大多数论文还表明这种方法是有效的。下图是一个示例。从图中可以看出,网络输出的特征不仅用于预测行人信息,而且还用于预测各种行人属性。丢失和属性丢失的组合可以提高网络的泛化能力。基于表示学习的工作仍然很多。表征学习也已经成为一个非常重要的领域,表征学习的方法更加健壮,训练也更加稳定。
但是,个人实际经验认为,表示学习很容易在数据集上过拟合,并且当训练增加到一定水平时,它似乎相对较弱。度量学习是一种广泛用于图像检索领域的方法。与表示学习不同,度量学习旨在通过网络学习两张图片的相似性。在行人重新识别的问题上,同一行人的不同图片的相似度大于不同行人的不同图片的相似度。最后,网络的损失函数使相同的行人图片(正样本对)的距离尽可能小,而不同的行人图片(负样本对)的距离也尽可能大。常用的度量学习损失方法包括对比度损失,三重损失,四重损失,困难样本采样三重损失和边界挖掘损失。首先,如果有两个输入图像和网络的前馈,我们可以获得它们的归一化特征向量总和。我们将这两张图片的特征向量的欧几里得距离定义为:对比度损失用于训练孪生网络,其结构如上图所示。双胞胎网络的输入是一对(两个)图片,并且两个图片可以是相同的行人或不同的行人。每对训练图片都有一个标签,指示两个图片属于同一行人(正样本对),反之亦然,这意味着它们属于不同的行人(负样本对)。之后,比较损失函数记为,这是根据实际需要设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对时,它将逐渐变小,即相同的行人图片将在特征空间中逐渐形成簇。相反,当网络输入一对负样本对时,它将逐渐变大,直到超过设定值。通过最小化,可以逐渐减小正样本对之间的距离,并可以逐渐增大负样本对之间的距离,以满足行人重新识别任务的需求。三重损失是一种广泛使用的度量学习损失。基于三重态损失,还发展了许多后续的度量学习方法。顾名思义,三重态损失需要三张输入图片。与对比度损失不同,输入三元组包括一对正样本对和一对负样本对。这三张图片分别称为固定图片,正样本图片和负样本图片。图片和图片是正样本对,图片和图片是负样本对。然后三元组损失表示为:如下图所示,
推开负样本对之间的距离,最终使相同的行人图片在特征空间中形成簇,以达到行人重新识别的目的。本文认为原始版本仅考虑正负样本对之间的相对距离,而不考虑正样本对之间的绝对距离。为此,提出了一种改进的三重态损失:added添加公式以确保网络不仅可以放入特征空间中,将正负样本推开,还可以确保正负样本对之间的距离非常接近。四重损失四重损失是三重损失的另一个改进版本。顾名思义,四元组需要四个输入图片,与三元组不同,它还有一个附加的负样本图片。即,四个图片是固定图片,正样本图片,负样本图片和负样本图片。其中两张是不同行人的照片,其结构如上所示。然后将四倍损失表示为:中性是手动设置的正态数,通常设置为小于,前一项称为强推,后一项称为弱推。与三重损耗相比,仅考虑正负样本之间的相对距离,不共享由四边形相加的第二项,因此考虑正负样本之间的绝对距离。因此,四倍损失通常允许模型学习更好的表示形式。困难的样本三重损失(本文稍后将由损失表示)是三重损失的改进版本。传统的三元组从训练数据中随机抽取三张图片。尽管此方法相对简单,但是大多数样本都是简单且易于区分的样本对。如果大量的训练样本对是简单的样本对,那么这不利于网络学习更好的表示。大量论文发现,使用更困难的样本来训练网络可以提高网络的泛化能力,并且有许多方法可以对困难的样本对进行采样。提出了一种基于训练批次的在线硬样本抽样方法。丢失的核心思想是:对于每次训练,随机选择一个行人,每个行人随机选择一张不同的图片,即其中包含一张图片。然后,对于每张图片,我们可以选择一个最硬的正样本和一个最硬的负样本,并形成一个三元组。首先,我们定义并设置与相同的图片集,其余图片集相同,然后将损失表示为:其中是人为设置的阈值参数。损失将计算出特征空间中每个图像的欧几里得距离,
通常,损失效果要好于传统的三重损失。边界挖掘损失边界样本挖掘损失是一种度量学习方法,它引入了困难样本采样的思想。三重态损失仅考虑正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,将四倍损失与负样本相加以形成四倍。四重损失也定义为:如果忽略参数和的影响,我们可以用更通用的形式表示四重损失,其中和是一对负样本对,和可以是一对正样本对或这是一个负样本对。将困难样本挖掘的思想引入后,您可以得到:both两者均为中等的图片是中间的最少正样本对,最像中间的负样本对的图片可以是正样本对或负样本样本对。一般而言,损失是为图片中的每个图片选择一个三元组,并且损失仅选择最困难的正样本对和最困难的负样本对来计算损失。因此,这是一种较困难的样品采样。另外,可以将其视为正样本对的距离的上限和负样本对的下限。它将正样本对和负样本对的边界推开,因此称为边界样本挖掘损失。概述是一种度量学习方法,它同时考虑了相对距离和绝对距离,并介绍了困难样本采样的思想。进化思想如下:各种性能比较本文中,上述主要损失函数的性能比较是在最公平的实验条件下进行的。实验结果如下表所示。作为参考,早期研究的重点是全局,即使用整个图像来获取特征向量以进行图像检索。但是后来人们逐渐发现全局特征遇到了瓶颈,因此他们开始逐渐研究局部特征。提取局部特征的常见思路主要包括图像切块,使用骨骼定位关键点,姿势校正等。图片切割是提取局部特征的一种非常普遍的方法。如下图所示,图片在垂直方向上分为几个相等的部分。由于垂直切割更符合我们对人体识别的直观体验,因此在行人识别领域很少使用水平切割。之后,将几个分割的图像块依次发送到长期和短期存储网络,并且最终特征合并所有图像块的局部特征。但这缺点是图像对齐要求相对较高,
头部和上身之间的对比度很可能会使模型判断错误。为了解决在图像未对准的情况下手动图像切片失败的问题,一些论文使用一些先验知识来首先对准行人。这些先验知识主要是预先训练的人体姿势和骨架关键点模型。本文首先使用姿态估计模型来估计行人的关键点,然后使用仿射变换来对齐相同的关键点。如下图所示,行人通常被划分为关键点,将人体结果划分为多个区域。为了提取不同比例的局部特征,作者设置了三种不同的组合。然后,将三个校正后的图片与原始校正后的图片一起发送到网络以提取特征。此功能包含全局信息和本地信息。特别地,提出仿射变换可以在进入网络之前或在输入到网络之后的预处理中执行。如果是后者,则有必要对仿射变换进行改进,因为传统的仿射变化是不可导出的。为了使网络可训练,有必要引入近似辐射变化的导数,在本文中不再重复相关知识。 S的作品还利用个人身体的关键点来提取局部特征。与本文不同,仿射变换不用于对齐局部图像区域,但是这些关键点直接用于关键区域的关键区域。下图显示了网络。首先,通过骨架关键点提取网络提取个人关键点,然后将这些关键点用于提取个人身体结构。共享网络中的所有特征提取参数(以橙色表示)。这分为三个线性子网。对于行人图像输入,需要进行预训练的骨架关键点提取(以蓝色表示)以获得个人身体关键点,从而获得一个区域,包括三个大区域(头部,上半身,下半身)和四个A小区域。肢体区域。该区域和原始图片进入同一网络以提取特征。原始图片完成后,将获得全局特征。通过三个大区域和子网可以获得三个局部特征。四个肢体区域通过子网获得四个局部特征。然后,按照图中所示的方式,以不同的比例连接该特征,最后获得结合了全局特征和多尺度局部特征的行人重新识别特征。提出了一种全局局部对齐特征描述符,以解决行人姿态变化的问题。相似,
之后,将整个图像和三个局部图像输入到参数共享网络中,并且提取的特征将全局特征和局部特征合并。为了适应具有不同分辨率的图片的输入,网络使用全局平均池提取其特征。稍有不同的是,四个输入图片中的每个图片都计算相应的损耗,而不是计算特征的总损耗。上述所有本地特征对齐方法都需要附加的骨架关键点或姿势估计模型。而训练模型可以达到实用水平需要收集足够的训练数据,这代价非常大。为了解决上述问题,提出了一种基于距离的自动对准模型,以自动对准局部特征而无需附加信息。使用的方法是动态对齐算法,即最短路径距离。最短距离是自动计算的。可以与任何方法结合使用。该论文被选为实验。最后,整个网络的结构如下图所示。有关详细信息,请参见原始论文。当前的单帧研究仍然是主流,因为数据集相对较小,即使一个实验不会花费太长时间。然而,单帧图像的信息通常是有限的,因此有很多工作集中在使用视频序列来研究行人重新识别方法上。基于视频序列的方法的主要区别在于,这种方法不仅考虑图像的内容信息,而且考虑帧之间的运动信息。基于单帧图像的方法的主要思想是用于提取图像的空间特征,而基于视频序列的方法的主要思想是用于提取空间特征并用于使用递归递归网络提取时间序列特征。上图是一个非常典型的想法,网络输入是一系列图像。每个图像都经过图像空间内容特征的共享提取,然后将这些特征向量输入到网络以提取最终特征。最终功能结合了单帧图像的内容功能和帧之间的运动功能。此功能用于代替以前的单帧方法的图像功能来训练网络。视频序列类的代表性方法之一是累积运动背景网络。输入包括原始图像序列和提取的光流序列。通常,提取光流信息需要使用传统的光流提取算法,但是这些算法的计算非常耗时,
为了获得自动提取光流的网络,作者首先训练了一个运动信息网络。该运动网络的输入是原始图像序列,而标签是通过传统方法提取的光流序列。如下图所示,原始图像序列显示在第一行中,提取的光流序列显示在第二行中。该网络具有三个光流预测输出,这三个输出可以预测三个不同比例的光流图。最终,网络将光流预测输出在三个比例尺上组合以获得最终光流图,并将预测的光流序列显示在第三行中。通过最小化预测光流图和提取光流图的误差,网络可以提取更准确的运动特征。的核心思想是,除了提取序列图像的特征之外,网络还必须提取移动光流的运动特征。网络结构图如下图所示。它有两个子网:空间信息网络和体育信息网络。输入图像序列的每一帧以提取图像的全局内容特征。将发送两个相邻的帧以提取光流图的特征。然后将空间特征和光流特征融合并输入到其中,以提取定时特征。通过网络,可以使用结合了内容信息和运动信息的功能来提取每个图像序列。网络使用分类损失和对比度损失来训练模型。序列图像特征与运动信息融合可以提高行人重新识别的准确性。本文从另一个角度展示了多帧序列对弥补缺少单帧信息的影响。当前,大多数方法都不是将序列信息发送给网络,无论是3还是721,这样网络就可以自己学习有用的信息,并且没有直观的解释为什么多帧信息有用。论文明确指出,当单帧图像遇到遮挡等情况时,可以用多帧的其他信息进行补偿,直接促使网络对图片进行质量判断,降低了劣质帧的重要性。如上所示,该文章认为,在严重阻塞的情况下,如果一般使用它,将导致性能下降,并且阻塞区域的特征将大量丢失。使用论文的方法对每个帧进行质量判断,您可以专注于那些相对完整的帧以使它们更完整。关键的实现是使用网络,本文称为。如果不完整,则表明存在遮挡,图像质量会下降。然后将和都同时输入到网络,让网络对每个帧进行权重判断,并对高质量的帧赋予较高的权重,
这个想法相对简单,但仍然很有说服力。有一个很大的问题是数据很难获得。截止到提交截止日期,最大的数据集将缩小几千个,成千上万张图片(假设该序列仅计算一张)。因此,在挖出图纸中的第一个孔之后,出现了很多工作,尤其是在提交稿件之后。论文是会议上的第一篇文章。尽管该论文相对简单,但作为挖掘的鼻祖,它带来了一系列出色的工作。如下所示,本文生成的图像质量不是很高,甚至可以说是惨不忍睹。另一个问题是图像是随机生成的,也就是说,没有可以使用的标签。为了解决这个问题,本文提出了一种标签平滑方法。实际的操作也很简单,即每个元素的值相同,并且满足度总和是。无论如何,我看不出谁属于它。生成的图像作为训练数据添加到训练中。由于时间不像现在这样高,因此效果非常明显。过度拟合至少可以避免更多数据。论文是同一研究小组提供的上一论文的增强版本。上一篇文章中的绘图仍然是随机的。在本文中,它成为可控制的生成图。一个问题是存在不同的相机。这可能来自各种因素,例如光线和角度。为了克服此问题,本文使用了从一台相机到另一台相机的图像。就方面而言,它仍然是一个相对正常的应用。与先前工作的不同之处在于,可以控制本文生成的地图,即很明显。因此标签平滑度也得到了改善,公式如下:数量在哪里。它是手动设置的平滑参数。当时,这是正常的媒介。但是,由于它是绘制的图形,所以希望不是这样。因此,添加了一个平滑参数。实验表明,它运作良好。最终的整体网络框架如下:除了摄像机,还存在数据集存在的问题,其中很大一部分是由环境引起的。为了克服这个问题,本文使用行人从一个数据集到另一个数据集的迁移。为了实现这种迁移,进行了一些设计,一个是前景的绝对误差,另一个是正则鉴别器。鉴别符用于确定生成的图属于哪个域。前景是为了确保行人的前景尽可能真实且不变。
效果如下图所示。该论文的另一个贡献是提出了一个数据集,这是一个非常大的数据集,我希望很快就会出来。的困难之一是姿势的差异。为了克服这个问题,本文使用了一系列标准姿势图片。本文总共提取了一个,基本上涵盖了所有角度。每张图片都会生成这样的标准图片,因此可以解决不同的问题。最后,使用这些图片之一来获得最终的图片,该图片结合了各种信息并很好地解决了问题。就生成图形和实验结果而言,这项工作非常出色。这项工作已经完成,但是您无法反驳,因为所有图形都已生成。除了生成这些图所需的额外时间开销外,没有使用任何其他数据信息。当然,这项工作还需要预先训练的网络进行提取。通常,绘图就是从某个角度解决问题。如果缺少什么,让它弥补。我不得不说,这确实是一个强大的事情。后记:以上是对基于深度学习的行人重新识别研究的综述。选择了一些代表性论文,希望能帮助刚进入该领域的人们快速了解他们近年来的工作。当然,还有很多优秀的作品没有包括在内,有十几篇文章。在过去的几年中,应该有数百篇相关文章,包括一些未监督的,半监督的和其他工作,这些都没有被提及,并且它们的实际能量和能力是有限的。本周四晚上,《科学评论》将启动由清华大学博士生共享的大型演讲厅。主题是,单击以了解更多信息并注册。
与我们一起见证未来!照顾学术编辑,兼职学者,学术外向者,请单击