基于运动信息的视频对象跟踪
基于运动信息的视频对象跟踪

李 莉

摘要:自然场景中,利用不同物体在时域具有连续性的这种特点来跟踪视频对象,把前一帧图像中的一个物体投影到当前帧。对于重叠区域用帧差作为重叠区域象素归属的度量,对露出区域利用这种分水线算法确定视频对象。
关键词:视频对象,运动投影,露出区域,重叠区域
中图分类号:TP1 文献标识码:A 文章编号:(2004)02-0060-03


活动对象的跟踪在计算机视觉上得到了广泛的应用,比较典型的有图像编码、视频监控、机器人技术等。关于活动对象跟踪的不同方法大致可以分成两类:基于运动的方法和基于模型的方法。
一、基于运动信息的视频对象跟踪
基于运动的方法建立在这样一个假设的基础之上,不同对象的运动各不相同,但它们在时域上具有一致的运动。这类方法速度较快,但在处理非刚体运动时会碰到相当大的困难。
用来进行对象跟踪的判据可以是被跟踪对象的几何特性,也可以是被跟踪对象基于区域的特性。根据所使用的判据不同,可以把活动对象的跟踪方法分成两类:基于边界的方法和基于区域的方法。基于边界的方法依赖图像边缘提供的信息,而基于区域的方法依赖于整个区域的信息(纹理或者基于运动的特性)。
在计算机视觉中多采用基于边界的特征来进行跟踪,这是因为不管一个对象的形状如何、它作何种运动,它的基于边界的特征都能够提供可靠的信息。基于边界的跟踪算法往往要用到活动围道模型,常用的模型有:蛇(Snake)、气球(Balloon)和测量活动围道(Geodesic Active Contour)。它们都需要一个起始的边界形状,然后在外界势能的作用下膨胀,同时又要受到内部能量的作用,从而向内收缩,稳定状态下的解就是此时对象边界所在的位置。一般说来,这种方法需要一个比较精确的初始值。
基于区域的方法一般是使用运动估计/分割技术。此时,目标运动的估计是利用不同时刻目标区域之间的对应关系来进行的。这种操作通常需要消耗许多时间,可以通过使用参数化运动模型来提高运算速度。利用这种方法来跟踪非刚体运动的对象时,会遇到一些困难,特别是对象边缘往往难以准确跟踪,但由于用到了整个区域中的信息,因此其稳健性非常高。
由于自然场景中不同物体的运动各不相同,但它们在时域上都具有一种连续性,因此可以利用视频对象运动的这种特点来跟踪视频对象。一般来说,在自然视频序列中,利用运动信息把前一帧图像中的一个物体投影到当前帧以后,其投影所在的位置与当前帧中该物体的实际位置相差不大。如果利用这种运动投影来表示当前帧中视频对象,误差一般不会太大。可以认为这种误差的产生区域集中在运动投影的边缘区域,因此只需对运动投影的边缘区域进行比较判断即可。为了检测一个象素是否被正确分配到一个视频对象,可以利用位移帧差作为判据。由于自然视频对象的复杂性,为了提高算法的效率,在比较各象素时需要一种合理的扫描顺序。
二、算法设计详细说明
在利用前一帧的视频对象分割结果和运动信息确定出当前帧中的视频对象及其运动参数以后,就可以利用当前帧的分割结果及其运动信息来分割下一帧图像。这里所使用的方法 是基于视频对象运动的一致性的,因此可以称之为基于运动一致性的视频对象跟踪算法,下面给出这种算法的实现细节。
1、算法框图

图1 基于运动一致性的视频对象跟踪算法框图
图1所示就是算法框图。假设已经知道第k帧图像的分割结果,以及分割出来的各视频对象的运动参数,现在就是要利用这些结果来分割第k+1帧图像。
首先根据各视频对象的运动参数计算出它们在第k+1帧图像中的位置,这就是所谓的运动投影。由于各视频对象的运动情况各不相同,因此在第k+1帧图像上,这些投影区域的集合往往不能覆盖整个图像平面,其中有些区域会重叠在一起,而有些区域在第k帧中没有对应区域。此时需要对重叠区域和露出区域分别进行判断,得到第k+1帧图像的一个完整剖分。通过对所得到的剖分结果进行细化,就可以得到第k+1帧图像的最后的分割结果。
2、运动投影
假设用 和 分别表示一个视频序列中相邻的两帧图像。利用基于运动一致性的视频分割算法已经得到第k帧图像的视频分割结果,假设它包含了M个视频对象Oi, i=1,2,…,M,这些视频对象相对于第k-1帧图像的运动参数集分别为Θik。由于一般的自然视频序列中物体运动的连续性,可以利用这些运动参数集Θik求出各视频对象Oi在第k+1帧图像中的估计位置。这些估计位置的集合可以看成是第k帧图像中各视频对象在第k+1帧图像中的投影。如果用Pi来表示这种投影,则有,
(1)
其中dx和dy的值如下所示, (2)
这种投影的结果如下图2所示。从图中可以看出,第k帧图像中各视频对象的运动投影一般说来并不能覆盖整个第k+1帧图像,有些区域的投影可能会重叠,这些区域叫做重叠区域,同样的,有些区域在第k帧图像中没有对应区域存在,这些区域叫做露出区域。

图2 基于运动信息的视频分割结果投影
3、重叠区域的判决
在3维空间中, 时刻没有出现遮挡的不同物体由于运动不同在 时刻可能会出现互相遮挡,把它们投影到成像平面以后,第k帧图像中各视频对象在第k+1帧图像中的投影就会发生重叠。如果用重叠区域所属视频对象的运动参数对它进行运动补偿,所得到的位移帧差应该比较小,因此可以选择位移帧差作为重叠区域象素归属的度量。为了减少噪声的影响,可以选择重叠区域内位移帧差平方的平均值作为这种判据。如果用R表示某一重叠区域,用 表示发生重叠的各视频对象的运动参数集,用 代表利用运动参数集 进行运动补偿以后区域R内位移帧差平方的平均值,则可以将R的归属判决用下面的公式来表示:
(3)
4、露出区域的判决
由于露出区域在前一帧图像中没有相应的视频对象存在,因此无法直接利用经过运动补偿以后的位移帧差来判断它应该属于哪一个视频对象。可以利用当前帧内的空间信息来进行判断,如果它属于与其相连的某一视频对象,那么它们在空间特性上应该相似。可以使用分水线算法来判决露出区域各未定象素点的对象归属。利用这种分水线算法,从运动投影的边缘开始区域增长,直到所有未定象素都被分配到一个视频对象为止。
5、运动参数的估计
由于自然视频序列中物体运动具有比较好的一致性,因此对各视频对象运动参数的估计可以使用一种递推方式进行。利用前一帧中各视频对象的运动参数集作为初始估计值,经过几步增量调整,即可得到一个收敛的结果。为了加快计算速度,可以利用每一个视频对象所在区域作为运动估计的支撑区域。
6、投影边缘的细化
当图像内重叠区域和露出区域都被判断好了以后,整个第k+1帧图像就被分割开来,得到一个初始分割结果。一般说来,这些区域的内部比较准确,只是它们的边缘象素可能还不太精确。由于不同视频对象的运动各不相同,可以利用这种运动信息来判断一个边缘象素是否被正确的分配到它所属的视频对象。
取一个以待判断象素p为中心的3×3正方形小窗 ,分别用边缘两侧视频对象运动参数集 对该小窗进行运动补偿,求出小窗内的平均绝对位移帧差 :
(4)
其中,


比较求出的这两个平均绝对位移帧差 ,对应着小的平均绝对位移帧差的视频对象就是该边缘象素最终所属的视频对象。
利用这种判断方法对边缘象素重分类的过程如下:
第一步,判断当前象素p是否在运动投影的边缘区域,如果不在,转第五步;
第二步,取出以p为中心的3×3正方形小窗 ;
第三步,分别利用边缘两侧视频对象的运动参数集 对 进行运动补偿,求出小窗 内的平均绝对位移帧差 ;
第四步,把象素p分配到最小 所对应的视频对象;
第五步,沿扫描方向取下一个象素,回到第一步,一直到所有象素都被处理完为止。
很明显,边缘象素的处理次序比较重要,所得到的分割细化结果依赖于扫描的方向。可以用图3来说明这个问题。图中有两个相邻的视频对象投影分别为A和B。假设扫描方向是从左到右,象素3有可能被重新分配到B中去,而象素2虽然也处于边缘区域,却不可能被分配到B中去。如果再增加一次从右到左的扫描过程,就可能把象素2分配到B中去。因此为了克服扫描方向带来的问题,可以使用两次顺序扫描过程,只要这两次扫描的方向相反即可。这里采用首先从上到下从左到右,然后从下到上从右到左扫描整个图像的方式。

图3 扫描方向对于分割细化结果的影响
三、算法的讨论
自然视频序列中物体的运动情况往往比较复杂,由于相邻两帧之间的时间很短,为了减少问题的复杂性,可以认为相邻帧间物体的运动是一种近似的刚体运动。物体的这种运动可以用一个参数化模型来描述,考虑到视频对象运动在时域上的连续性,可以利用前一帧图像中各视频对象的运动参数作为当前帧中各对应视频对象运动参数的初始值,简单地使用增量方法,即可估计出当前帧中各视频对象的运动参数。
参考文献:
[1]钟玉琢、王琪. 基于对象的多媒体数据压缩编码国际标准――MPEG-4及其校验[J]
[2]李小平、曲大成. 网络多媒体应用[M].北京: 北京理工大学出版社, 2001.
[3]苏洁、曹忠升. 甚低码率视频n. MPEG-4 Overview ?C (V.21 ?C Jeju Version), ISO/IEC JTC1/SC29/WG11 N4668, Seoul, Korea, 2002
[5] Information technology ?C Generic coding of audio-visual objects ?C Part 2: Visual, ISO/IEC JTC1/SC29/WG11 N2688, Seoul, Korea, 1999
[6]L. Chiariglione. MPEG and Multimedia Communications, IEEE Trans. Circuits Syst. Video Technol., 1997, 7(1):5-18
paper   2005-11-19 19:58:33 评论:1   阅读:1575   引用:0
无题 @2010-01-18 12:23:02  
自然视频序列中物体的运动情况往往比较复杂,由于相邻两帧之间的时间很短

发表评论>>

署名发表(评论可管理,不必输入下面的姓名)

姓名:

主题:

内容: 最少15个,最长1000个字符

验证码: (如不清楚,请刷新)

Copyright@2004-2010 powered by YuLog