智能视觉分析在视频监控领域中的技术浅析

2012-06-13 08:50:11 来源:CPS中安网作者:孙敬责任编辑: luocaocps 收藏本文

　目前，智能视觉分析已广泛应用于视频监控领域。智能视频监控技术是建立在视频监控已经过第三代发展的基础上，为其加入智能视觉分析系统的新一轮技术变革。它相当于为普通监控设备加上了具有对观测到的事物进行分析和判断能力的大脑，拥有更强大的视频监控功能。它的出现为社会安全撑起一把更加严密、稳固的保护伞，以有效遏制影响秩序和安全的异常事件的发生。

　　视频监控对智能视觉技术的需求分析

　　近年来，视频监控已广泛应用于各种场所，其对各行各业的渗入使得在安全防范、信息获取和指挥调度等方面开拓了前所未有的新局面。然而，传统的视频监控通常是以人为主的目视监控并由系统记录视频信息。由于人的精力有限以及每个监视器可能需要轮流显示多个摄像头画面，导致监控人员在长时间观察大量监视器的情况下，容易人眼疲惫、错过画面场景，不能及时可靠的提取监视器中的有效信息，所以即使由人力进行监控也不能保证实时精确的发现问题。再者，原有监控录像通常是等事件发生之后才被调出进行查看，将其用于取证或其他后续处理工作。这并不能在事件发生同时进行实时报警，进而不能有效地遏制恶性事件的发生。而且，海量无用视频数据的传输和存储，不仅造成带宽及存储资源的严重浪费还淹没了少量的有用信息，使得有用信息的获取变得困难。智能视频监控技术借助计算机强大的数据处理功能，对视频画面中的海量数据进行高速分析，过滤掉监控者不关心的信息，仅仅为监控者提供有用的关键信息，大大提高了视频监控在实时发现异常行为、及时传输报警信息方面的功能。

　　其具体的功能需求分析如下：

　　1. 人群聚集

　　商场、剧场、车站等场所在特定时间内容易在局部区域出现大量人员拥挤的情况。为了避免人群聚集导致的踩踏、挤伤以及不法分子趁机扰乱秩序进行违法犯罪行为，需对过多人员聚集的情况进行自动报警处理，进而及时疏导，避免危险事件的发生。

　　2. 人数统计

　　人数统计系统是一种监控人群流动量的智能系统，能够提供准确的人群流动量、人群流动方向的统计及分析数据。用户可根据实用情况设置监测一个或多个出入口，也可以设置统计单一方向或双向的人群流动，可分别对进、出建筑物的总人数，单位时间内进出建筑物的人数，实时计算建筑物内部当前时刻人员的数量等信息做出统计。适合于超市、百货大楼、餐馆、学校、图书馆、运动场、旅游景点、公交、火车站及机场等人口较为密集的公共场所。

　　3. 人员徘徊

　　一些违法犯罪分子在实施犯罪之前往往会反复考察其犯罪地点的周围环境，所以，他们会在某些区域不停徘徊。为了及时发现和阻止其犯罪行为，需要对人员徘徊行为进行自动报警。此技术适合于像军事重地、监狱周边等戒严区域，银行、库房、博物馆、珠宝店等存放贵重物品区域等。

　　4. 物品遗留

　　随着恐怖袭击越来越威胁着社会的稳定和人类的生命安全，反恐也成为维护社会安全和秩序的重要议题。恐怖分子经常将爆炸物品遗留在人员密集区域，造成严重的人员伤亡。通过对公共场所进行物品遗留监控，可以有效的防止此类事件的发生。此外，当车辆被非法停靠时也可以以物品遗留报警的方式进行处理。

　　5. 非法滞留

　　在上下班高峰时段的地铁等地方，人员较多、人流量较大，容易在过道、楼梯口等较狭窄的区域产生拥挤状况。此时如果有人员在狭窄区域停滞不前将会影响其他人员通过，进而导致人员拥挤造成堵塞。类似情况还会发生在车辆较多的道路上，当有汽车出现抛锚、刮蹭等事故停滞在道路上时，很容易造成交通拥堵，如果能够快速、准确的找到滞留目标，及时通知相关人员进行疏导则能够大大缓解拥堵状况。

　　6. 突然倒地

　　突然倒地是指人体在直立的状态前提下转变为倒卧姿态。此功能多应用于公共场所，防止人员突发疾病或遭受重创而未被及时发现，耽误救治。另外，此功能也可应用于医疗系统中的临床监护，实现对病人部分状态的自动监护。

　　上述内容描述了智能监控系统的功能应用，其不仅使视频监控做到全天24小时不间歇的可靠监控，而且大大提高了报警精确度和响应速度，克服了人力监控的诸多弊端。

　　智能视觉技术分析

　　通过以上关于应用需求的分析，从技术方面可将人员徘徊、非法滞留、物品遗留、非法入侵等归为一类—视觉行为分析。行为分析必须以正确检测到图像序列中的目标并进行跟踪为基础，从图像序列中提取运动目标的行为特征，然后通过有效的算法判断和分析目标的行为，因此行为分析属于图像语义理解层面的工作。行为分析的重要问题就是如何从样本序列中建立行为模式，如何将测试序列正确分类到相应的行为模式中。

　　行为分析主要涉及到三个方面的问题：运动目标检测、目标跟踪和行为识别。其系统结构如图1所示。

　　1.运动目标检测

　　运动目标检测就是从图像序列中将变化的目标物体从背景图像中提取出来，它包括：目标分割和目标分类两部分。这是行为分析系统的第一步也是最重要的一步，它是此后的目标跟踪和行为识别的关键信息源。目标分割的任务就是将视频序列中的所有运动目标所对应的区域准确提取出来；而目标分类则是从分割得到的多类运动目标中（例如，行人、汽车、转动的机器等）选取我们需要的目标（例如，行人）。

　　常用的基于运动目标检测的目标分割方法有三种：光流法、帧差法、背景差分法。光流法在摄像机运动的条件下也能检测出独立的运动目标，然而多数光流法计算相当复杂，不利于实时计算；帧差法对于运动环境具有较强的自适应性，但一般不能提取出相关区域的所有像素点，在运动体中容易产生空洞现象；背景差分法适用于固定摄像机的情形，它先为背景图像建立背景模型，通过将当前图像帧与背景图像进行比较，确定出亮度变化较大的区域，即认为是前景区域。这种方法计算速度很快，可以获得完整的运动区域，但对于场景中光照和噪声比较敏感，在实际应用中需要采用一定的算法进行维护和更新背景模型，以适应环境的变化。图像序列中光线、阴影、遮挡和目标物体的像素的变化成为影响分割效果的最大障碍。一个理想的检测算法能够适应各种环境和条件，但事实上得到适用于各种环境的算法是非常困难的，因此，通常的做法是针对不同的应用条件和环境，选取不同的算法。

　　在已经得到分割目标的基础之上对这些目标进行分类，进而对研究目标进行后续跟踪处理。分类过程中，首先需要对目标进行特征的提取，其主要存在纹理、灰度、边界、结构、变换域等不同类型的方法。然后对提取的特征进行分类，其方法有基于贝叶斯统计决策理论和判别函数等方法。其中判别函数的方法包括：统计学习理论支持向量机、人工神经网络等。另外，如果将后续的跟踪过程看作随机过程，那么需要在跟踪之前建立初始模型，对跟踪目标进行学习和训练，此时，目标的分类与跟踪融为同一个过程，因此，部分算法并没有单独的目标分类这一步骤。

　　2. 目标跟踪

　　和运动目标检测相比，目标跟踪属于较高层的视觉问题。但是在行为分析中，跟踪算法通常和运动分割有很大的相同之处。在时间域上的跟踪，即在后续帧上使用点、线或区域的特征匹配，也就是说，跟踪可以被看作根据位置、速度、尺度、形状、纹理或颜色等在帧与帧之间建立的图像特征的内在联系。其需要解决的问题主要有两个：目标建模和目标定位。

　　建模主要用来收集描述目标的视觉特征，为以后定位目标提供信息。目前常用的特征有颜色特征、边缘特征、纹理特征、光流法、小波表达、局部区别特征描述算子等。颜色特征对于目标平面旋转、非刚性变形、部分遮挡等情形较为鲁棒，适合于变形目标跟踪。尽管颜色特征对变形和姿态变化很鲁棒，但是不能描述目标的空间结构，易受光照等外界条件的影响。边缘信息能弥补颜色信息的缺陷，不易受光照变化的影响。纹理是一种应用比较广泛的方法，例如，局部二值模式（LBP）其对光线等的变化有较好的鲁棒性，但其计算量较大难以满足实时性的要求。光流在跟踪领域是一种有效的特征，但在计算光流信息时，必须计算图像中每个像素点的速度和方向，所以计算量大同样很难满足实时性的要求。小波表达可以从不同尺度、不同方向描述图像，对于由粗到精的差分运动估计非常有效。局部区别特征描述子是指目标通过一组辨别特征描述算子表达，这些描述算子从局部区域的图像特征点产生，他们表达了局部区域对于尺度、旋转和光照的不变性，将这种特征描述算子嵌入到跟踪框架中，实现跟踪。

　　目标定位是一个预测目标参数的过程，根据图像序列，确定目标在图像中的位置、形状参数。近年来，目标定位研究的主流方法是将目标定位转换为在贝叶斯滤波框架下求解目标状态后验概率密度的过程。在贝叶斯理论框架下，将目标跟踪问题看作最优估计过程，通常采用状态空间模型来描述，首先选择状态向量，通过状态转移方程进行预测，然后利用最新观测值对预测值做出修正。当过程噪声和观测噪声都是高斯分布，且状态转移方程和观测方程都是线性的，利用常规的Kalman滤波就能给出最优解。当状态方程和观测方式是非线性函数时，扩展Kalman滤波就可求解后验概率。如果状态空间是用有限的离散值组成，隐马尔科夫模型（Hidden Markov Models）可以实现。但是在实际场景中，状态方程和观测方程往往都是非线性的，而且噪声也是非高斯的、状态分布是多模态的，在这种情况下，通常利用粒子滤波的方法。

　　3. 行为识别

　　此处的行为是广义上的“行为”定义，它包括动作、行为和活动三个层面。动作是指人体的一个小的运动元素，如抬脚、落脚、甩臂等，而狭义上的行为是按时间有序排列在一起的动作的集合，例如跑步，走路等。而一系列狭义行为组成的序列称为活动，如打球等。其主要目的是对人体的运动进行了层次的划分，但划分并不是绝对的。对于行为（未加说明时指广义行为）的识别方法主要有两种：基于模板匹配的方法和状态空间模型的方法：

　　模板匹配的方法首先将动态的图像序列转化为特征模型，然后与训练得到的各种行为模板进行匹配。其优点是计算复杂度较低且简单易行，但其对噪声和特征模型在时间和空间尺度上的轻微变化较为敏感，通常要加入模型演化的步骤。

　　基于状态空间模型的方法是把每个静态动作定义为一个状态，使用特定概率生成这些状态之间的相互连接。所有的连续动作被看作是不同状态之间的转移。通过研究这些状态转移的概率，把联合概率作为动作分类的标准。但是，如何选择合适数量的状态和特征向量的维数仍是一个难点。

　　以上是对人体行为分析主要技术点的概述，然而针对不同的应用需求，其具体算法也有所不同，具体分析如下：

　　1）人员徘徊

　　准确的徘徊行为是一个包含复杂动作的过程，识别难度较大。但是可以通过在预设区域内判定目标移动的距离、时间以及方向等来做出间接判断。由上述目标检测和跟踪可知，在对目标进行可靠跟踪的基础上，将目标在帧与帧之间的坐标距离进行累加即得到整个运动过程中的轨迹长度，以此可利用较简单的判断方式进行识别，但此方法鲁棒性较差，容易造成误判，可满足安全级别较低的场景中。当安全级别要求较高的情况下，可通过对徘徊行为训练和学习、建立模型，利用基于状态空间模型的方法来识别，可降低误判率，但其对训练样本的数量和多样性要求较高，训练过程复杂。

　　2）物品遗留

　　物品遗留一般是指由人携带物品进入目标区域，然后人员离开，物品遗留在目标区域。此种情况下可对进入目标区域的移动目标进行跟踪，当目标保持静止状态的时间超过预设阈值t0时，判定为遗留。由于遗留物品种类繁多，需要建立大量、多种类的样本库。另外，遗留物体突然出现、没有遗留过程（遗留过程被遮挡、不可见）时，以及当遗留物品不断被移动目标大面积遮挡时，上述算法并不适用，所以针对不同的应用场景需要不同的算法满足需求。

　　 3）非法滞留

　　非法滞留涉及多目标跟踪及目标速度的实时计算。需要实时跟踪并记录场景内每个目标的移动速度，当单个目标的运动速度v远小于整个人群的运动速度v0时，触发报警。而整个人群的运动速度v0通过对所有单个目标运动速度统计得到。对于速度限值v0也可根据情况设置为一个常数，这可以由用户的需求进行自主选择设置。另外，可以对整个目标群的运动速度设置限值v1，当整个目标群的运动速度低于限值时表示此区域产生大面积滞留，可发送区别于个别目标滞留的报警信号，以此提醒工作人员对此区域进行及时的疏导。

　　4）突然倒地

　　上述三类人体行为分析一般属于对人体简单“活动”的识别，而突然倒地则属于“动作”范畴。对于简单场景下的倒地识别通常使用基于状态空间模型的方法，首先建立模型、确定初始模型，然后由训练样本集训练出可靠的模型参数，最后计算测试样本对于各个已知训练模型的概率，选取最大概率所对应的行为模式类别作为该测试样本所属的类别。但是，在人员较为密集的公共场所，其倒地过程常常会被过往的人群不断遮挡，这增加了识别算法的难度，需要对遮挡更具鲁棒性的算法来满足场景需求。

　　以下两种算法并不属于人体行为识别，但其也是智能监控中的重要应用：

　　5）人群聚集

　　通常对人群聚集的检测方法有两类：人群密度估计法和基于个体特征的方法。前者是基于人群整体特征与人群聚集密度之间的关系进行处理，此类方法适合于大场景中人群较为密集的情况；而后者则是根据单个人的特征统计场景中人的数量，适用于较小场景、人员数量较少、遮挡不严重的情况，其对人数的统计比人群密度估计法更精确。

　　人群密度估计法可通过提取不同的特征向量来实现，例如，前景人群总像素点数或边缘总像素点数，但是应用最为广泛的为纹理特征提取。其根据不同密度的人群对应纹理模式不同，通过建立人群密度与纹理模式的对应关系来估计人群密度大小，进而判定人群聚集。基于个体特征的方法首先对单人目标进行检测，由于人体的头肩部分最不易被遮挡且人体特征较为明显，所以头肩检测应用较为广泛，另外利用变换域的方法也较多；然后统计目标场景中检测到的人员总个数n，设定阈值n0，当n≥n0时，判定为聚集。

　　6）人数统计

　　从适用环境的角度分析，人数统计方式可分为两大类：一类是适用于开阔场景或户外环境的区域式统计；一类是适用于通道或出入口的断面式统计。前者一般是对目标区域内的总人数进行统计，后者一般是将摄像头置于通道或出入口的顶部，垂直向下拍摄，统计进出两个方向的人数。前者的实现方法与人群聚集类似，此处不再重复。后者根据其特殊的约束条件，摄像头拍摄到的通常是人的头肩，所以在对头肩的目标检测和跟踪之后，可以进行目标计数。但是，当多个人同时通过出入口时，由于目标距离过近，容易造成目标合并和分离，即将多人目标当作单人，或所谓的“单人”目标又分离为多人的情况。解决此问题的方法有多种，其中可将头肩特征以头部特征代替，在目标“擦肩而过”时，头部区域通常不会合并为一个目标。另外，对于双方向的计数需要在跟踪过程中增加运动方向的特征。

　　除了上述的应用之外，还有非法入侵、打架斗殴、破坏公共财物等自动报警功能，其主要的技术模块类似，但针对具体不同的应用环境和功能其具体算法也不同。随着人工智能、模式识别、图像工程、人工神经网络的不断发展，智能视觉分析在视频监控领域的应用也会逐步替代人力，使智能视频监控发展更加广泛和完善。

　　结语

　　智能化监控与普通的视频监控设备相比具备更加强大的视频信息处理能力，可以提供更多高级视频分析功能，使监控系统在安全管理中发挥更大的作用。智能化的视频监控系统已成为辅助安全管理的必然趋势，随着其功能的不断完善和应用范围的不断扩大，势必成为视频监控领域的又一次革命性更新换代。

　　北京汉邦高科数字技术股份有限公司研发中心

【想第一时间了解安防行业的重磅新闻吗？请立即关注中安网官方微信（微信号：cpscomcn）——安防行业第一人气微信，万千精彩，千万不要错过！！！

中安网官方微信

关键词智能视觉分析