数字图书馆中基于内容的视频拷贝检测关键技术研究

时间：2016-05-27

小编：邵奇可

〔摘要〕随着数字图书馆中数字视频资源的增长，数字视频版权保护问题逐渐暴露出来。基于内容的视频拷贝检测技术作为一种有效的版权保护技术，近年来逐渐受到研究人员的关注。本文对基于内容的视频拷贝检测的关键技术视频指纹提取和指纹匹配的研究成果进行了分析，总结了指纹提取和指纹匹配的研究现状，指出了该领域存在的问题，最后分析了该领域的发展方向。

〔关键词〕数字图书馆；基于内容的视频拷贝检测；视频指纹；指纹匹配

DOI：10.3969/j.issn.1008-0821.2016.02.026

〔中图分类号〕G250.78 〔文献标识码〕A 〔文章编号〕1008-0821（2016）02-0135-05

〔Abstract〕Along with the digital video resources in digital library rapid growth，protecting video copyright changes more and more importantly.The content-based video copy detection technology as an effective means has become a research hotspot in recent years.The paper summarized the current research of the key techniques for the content-based video copy detection technology and pointed out the research difficult fields.And it gave the development trend.

〔Key words〕digital library；content-based video copy detection；video fingerprint；fingerprint matching

从20世纪90年代数字图书馆的概念被提出以来，至今已发展了20多年，其中数字视频资源成指数增长，同时数字视频版权问题暴露出来。面对海量的数字视频资源，人们可以轻易下载和编辑（转变格式、添加logo、剪辑等）视频并上传到数字图书馆网站上，这样不仅侵犯了视频原作者的知识产权，同时也造成了视频资源内容冗余的问题。视频具有内容丰富、直观生动的特点，已成为人们获取信息的重要渠道。因此如何解决视频盗版侵权和减少内容重复的视频信息已成为影响数字图书馆发展的重要问题。

视频拷贝检测作为一种有效的版权保护方法逐渐成为近年来的研究热点，视频拷贝检测主要有两种方法：数字水印法和基于内容的视频拷贝检测法。由于数字水印法需要在视频制作过程中加入数字水印信息，而且对各种攻击不具有较好的鲁棒性，所以数字水印法有一定的局限性。基于内容的视频拷贝检测不用对原始视频添加任何信息，可以在视频传播的任何过程提取视频的内容特征，形成视频指纹，通过比较参考视频和查询视频之间的相似度来判断是否发生了视频拷贝[1]。

如果参考视频与查询视频内容上基本相同，只是在视频亮度、尺寸、位率等方面有差别，则认为查询视频是参考视频的拷贝，拷贝变换的形式主要有以下几个方面[2]：

（1）视频位率、帧尺寸的变换。

（2）视频编码格式转变：如，MP4、AVI、WMV等格式之间的转变。

（3）视频在时域和空域的编辑。如，在边角添加logo，添加边框、字幕，噪声，高斯模糊，剪掉或插入一些帧。

一个典型的基于内容的视频拷贝检测系统由4个模块组成：视频预处理，指纹提取，指纹匹配，拷贝结果判定。具体流程如图1所示。由于视频特征的复杂性和攻击处理的多样性，如何设计一个计算简便且检测精度高的视频拷贝检测系统成了一个充满挑战性的任务。目前来看，基于内容的视频拷贝检测的研究难点主要在于指纹提取和指纹匹配两方面。视频指纹是认证视频的惟一标识，用于描述视频内容，又被称为视频DNA。指纹匹配是对从参考视频和查询视频中提取出的视频指纹进行对比，判断相似性。

1 指纹提取

要检测出在经过各种编辑处理之后的拷贝视频序列，提取的视频指纹必须同时满足两方面的要求，即在一方面要对处理变换后的视频数据具有鲁棒性；在另一方面还要对因内容变化而产生的视频数据具有区分性，如何提取满足这两个方面的指纹是视频拷贝检测研究的核心[3]。近年来的研究主要集中于以下4个方面：

1.1 基于空域的方法

基于空域的方法主要是以视频关键帧的空域属性作为视频特征。早期研究者直接将图像特征提取应用到视频拷贝检测中，Naphade[4]采用视频关键帧的YUV空间直方图作为该帧的特征，然后通过比较两段视频YUV空间直方图的相似度来判断拷贝，这种方法计算简单但没有考虑颜色的空间分布，并且视频重编码会造成颜色偏移，影响检测准确度。Su[5]等利用帧的边缘信息作为视频特征，这种方法计算量较大，并且在发生视频格式变换时容易引起亮度和块效应的变化从而影响视频帧的边缘信息。Hampapur[6]提出一种采用宏块运动矢量特征作为视频特征，但往往无法真实描述视频的运动信息，因此对视频内容变化不具有较好敏感性。随后，Hampapur[7]将图像的顺序度量（OM，Ordinal Measure）引入视频拷贝检测，他将每个关键帧分割成3×3的图像块，计算每块亮度平均值并对各块平均值排序，排序的平均值序列作为视频指纹。Hua XS[8]采用关键帧灰度平均值的空间分布，提出利用空间灰度序构建视频指纹。由于中位数相对平均值对全局变换有更好的抵抗力，汤海萍[9]提出采用各块亮度的中位数序列作为视频指纹。实验表明基于OM特征的视频拷贝检测算法明显优于基于运动方向和颜色直方图的方法，缺点是当视频亮度改变时，会影响各块的亮度值变化，打乱各块之间的排序。随后，Oostveen[10]等人对各块的亮度值进行偏微分运算，再进行排序作为关键帧特征构建视频指纹；Lee[11-12]等人通过提取各块亮度梯度信息构造视频指纹；鲍伟[13]提出了只提取核心区域OM特征，对在边角添加logo和边框的视频具有较好的鲁棒性。这种分块排序法虽然使检测性能得到提升，但对经过几何变换后的拷贝视频如扭曲、剪裁和旋转的检测效果较差。

于是研究人员提出采用视频帧的局部特征构造视频指纹，局部特征是对图像兴趣点领域信息的描述，对图像的几何、光照、视角等变化具有良好的不变性，甚至对局部遮挡的目标依然具有一定的识别能力。赵玉鑫[14]利用局部敏感哈希算法（LSH，Locality Sensitive Hashing），通过Harris算子提取出图像中的局部不变点然后根据局部不变点的Hilbert曲线生成视频的哈希码，最后通过度量视频间哈希码的距离来判断是否发生拷贝。但Harris算子的精确度和抗噪性能相对较差，并且不具备尺度不变性等。Natsev[15]提出尺度不变特征变换算子（SIFT，Scale Invariant Feature Transform）作为关键帧的局部特征，所提取的局部特征描述性更好，并结合颜色相关图作为视频指纹。SIFT特征相比以前的特征可区分性更高，但是提取的特征维度较高计算较复杂。许?'[16]等人采用以SIFT特征为基础的视觉词典法（Bag of Visual Words）提取视频指纹，该方法通过将提取出的大量局部特征映射成单词集合，利用近邻传播学习算法对单词进行聚类形成视觉词典，以词频向量构成视频指纹。张三义[17]等提出了一种利用ORB（Oriented FAST and Rotated BRIEF）二值特征描述符作为视频指纹，相对于SIFT特征提取速度更快，匹配精度更高。这种基于视频帧局部兴趣点的方法，对一般常见的攻击如模糊、加边框、字幕、几何变换等都有较好的鲁棒性，但局部特征的提取过程中需要对兴趣点进行检测和定位，计算较为复杂。

1.2 基于时域的方法

基于时域的方法是将视频序列的时序信息作为视频指纹。Indyk P.[18]首次提出采用时域信息作为视频指纹，他采用视频中每个镜头时间长度的信息作为视频指纹。这种方法可以用于整个视频的拷贝检测，但并不适用于视频片段的拷贝检测。随后，一些研究人员提出运用关键帧在视频中的位置信息构造视频指纹。目前较常用的方法是利用相邻帧之间顺序关系来组成视频指纹，Chen[19]等人采用视频的时域亮度顺序信息作为视频指纹，与在空域里进行的分块亮度排序方法相似，将视频帧分割成块并计算各块亮度的平均值，然而时域亮度排序不是直接对视频帧内分块进行亮度排序，而是再视频序列上放置一个滑动窗口，取窗口内的视频帧相同位置上的分块排序，从而形成基于时域的视频指纹，但是对插入或删除视频帧的情况检测性能较差。Zhang[20]等人通过比较关键帧各块的平均灰度值，将平均值最大的3个子块的位置信息构成关键帧特征，然后比较关键帧之间特征的位置变化情况生成视频指纹。这些方法有效利用了视频序列的时间信息，但是对于插入或删掉一些帧的攻击鲁棒性较差。郭俊波[21]等人采用Harris角点检测并结合KLT跟踪将提取的特征点轨迹进行量化，然后采用视觉关键词方法，将提取的Harris特征点的轨迹行为转化为词频直方图构成视频特征。Wang[22]等人通过提取三维空间Harris角点，并利用梯度直方图和光流直方图表示该点的局部区域信息，然后进行角点聚类，最后跟踪特征点的轨迹并结合上下文构建视频指纹。

1.3 基于时空域的方法

基于时空域的方法就是将视频的空间特征和时间特征联合构建视频指纹。由于视频内容丰富多变，使用一种特征不能全面描述视频内容，若融合多种视频的特征来构建视频指纹，得到的视频指纹鲁棒性会更好。Kim[23]等人通过利用关键帧分块亮度排序形成空间特征，以相邻关键帧之间的亮度平均值的变化作为时间特征，结合视频的空间特征和时间特征构建视频指纹。同时该文还指出，增加OM分块数可以加强特征描述能力。目前现有的基于关键帧的检测方法没有充分利用视频的时空相关性，潘雪峰[24]等人提出了一种基于视觉感知的时空联合检测方法，根据视频序列能量谱与时间和空间频率的相关特性以及人类对时空视觉变化的敏感性，对视频时空切片单元块进行离散余弦变换得到基于视频时空联合特征的视频指纹。实验表明，这种方法比单一使用空域或时域特征构建的视频指纹具有更好的鲁棒性和区分性，表现出优越的性能。

1.4 基于变换域的方法

基于变换域的方法是先对视频的关键帧进行一些变换如傅里叶变换、离散余弦变换、小波变换等，然后从变换域中提取视频指纹。基于变换域的特征对于各种攻击具有较好的鲁棒性，目前已经成为主要的视频指纹提取方法。Swaminathan[25]等人对视频帧进行傅里叶变换，提取到对几何攻击鲁棒的视频指纹；Coskun[26]等人通过对时空域结合的特征进行离散余弦变换（DCT变换）构建视频指纹。靳延安[2]等人首先将关键帧转换为灰度图像，将关键帧划分成块并计算每一块的平均灰度值，对平均亮度值矩阵做DCT变换，选取DCT变换的AC系数，生成AC系数值的排序矩阵，利用AC系数的有序测度构建视频指纹。同样，基于小波变换的方法也可以表征视频特征，构建视频指纹，而且小波具有平移不变性和伸缩不变性，能够更好的抵抗对视频的几何攻击。王大永[27]采用小波变换对视频帧进行变换，利用低通滤波器构建了小波函数，得到小波系数，组成视频序列的特征向量，构建视频指纹。实验表明基于小波变换的视频指纹对各种几何攻击具有更好的鲁棒性，但小波变换对视频帧率变化的抗干扰性能较差。同时有部分研究者利用基于Radon变换和奇异值分解的方法构建视频指纹，这些方法对于视频的几何攻击具有较好的鲁棒性。以上方法都是在非压缩域进行处理，而对于压缩域视频拷贝检测，传统方法是先进行视频解压缩再提取视频指纹，这种方法计算量大效率较低。张勇东[28]等人提出直接在压缩域上进行DCT变换，得到DC系数OM特征进行相似度匹配，显著减少输入视频解码操作，提高了视频指纹提取效率。

2 指纹匹配

视频指纹匹配也是影响拷贝检测系统准确率和漏检率的关键因素。指纹匹配是指通过计算参考视频的指纹与查询视频的指纹的距离是否小于一个既定阈值，来判定查询视频是否发生了拷贝[13]。好的指纹匹配方法应满足在海量数据情况下，准确迅速地测度指纹之间的距离，返回匹配结果。目前指纹匹配有两种常用方法：视频序列匹配方法[7]和基于帧融合的匹配方法[29]。

2.1 序列匹配方法

序列匹配方法是一种较早的匹配方法，该方法先提取参考视频的指纹，构建一个指纹库。然后提取查询视频的指纹信息，然后根据查询视频指纹序列长度设定一个匹配窗口，并设定滑动步长。匹配时把查询视频指纹序列沿参考视频指纹序列向前滑动一个固定步长，并计算这个窗口内查询指纹序列与参考指纹序列之间的距离，记下每个对齐窗口的两序列距离值，找出距离值中的最小值，并设定阈值，将这个距离最小值和既定阈值比较。如果距离最小值小于既定阈值则认为查询视频是其对应的参考视频的拷贝视频。使用固定步长的滑动窗口不能准确判断是否拷贝和拷贝的起始位置。为了应对这种问题，聂秀山[1]采用了一种基于可变步长滑动窗口的匹配方法。通过计算前一次两视频序列匹配的汉明距离（Hamming），将所得汉明距离设为窗口下次滑动的步长。所有视频序列都匹配完后，可以得到匹配过程中最小的汉明距离，若此最小值小于既定阈值，那么查询视频为拷贝视频。这种基于序列匹配方法计算简便，但存在阈值大小设定问题，对于经过各种处理之后的视频，设定一个合适的阈值很困难。此外，这种方法还不适用于查询视频序列中只有一部分视频序列是拷贝的情况。

2.2 基于帧融合的匹配方法

基于帧融合的匹配方法不需要设置阈值，该方法分别对参考视频和查询视频提取关键帧和关键帧特征，并构建参考视频的特征库。然后将查询视频的每个关键帧与参考视频特征库进行相似性对比，用相似度最接近的M个关键帧构成相似帧列表。再利用查询视频和参考视频时间上的一致性信息即可找到查询视频对应的参考视频序列。这种方法也有缺点，如果查询视频时间很长，要等找到查询视频关键帧的所有相似性列表，再进行一致性检测，这造成了在时间和空间上较大的浪费[9]。Wei S[30]提出采用动态Viterbi-like算法进行匹配，该方法不用等所有相似性列表全部返回再进行融合，而是有部分相似性列表返回，就开始进行融合。对于查询视频，在这一匹配过程中先为其返回一个相似帧列表，然后在这一列表中结合时间一致性信息对相似帧进行融合，将在时间上连续的相似帧融合成一个路径。

3 研究难点

虽然有众多研究人员对基于内容的视频拷贝检测进行了较深入的研究，但就目前而言这一研究工作仍然存在许多问题需要解决。

3.1 指纹提取和指纹匹配运算量大

视频信息结构复杂、内容多变、时间长、数据量大，造成运算量较大，这是所有视频拷贝检测系统共同存在的一个问题。特别是在对海里视频进行检查时，无论是在指纹提取还是指纹匹配所需计算时间都太长，无法达到实际应用中的要求。

3.2 视频多特征融合

基于内容的视频拷贝检测想要提高检测准确率需要融合多种视频特征构造视频指纹，用单一特征构造的视频指纹，其指纹信息约束力不足，在检测过程中往往会造成误检。采用多特征融合的手段构造的视频指纹可描述更多的视频信息，使得匹配结果更准确，但多种视频特征的融合目前存在的问题。

3.3 高层语义信息与低层特征相关联

目前在从视频中提取的低层特征与人对视频的理解之间存在着“语义鸿沟”。由于人对视频语义信息的理解千差万别，语义提取技术的发展还远远没有达到自动描述视频内容的能力。具有自动提取视频语义信息和语义匹配能力并结合视频低层特征的内容拷贝检测系统是未来的研究方向之一。

3.4 视频指纹匹配算法仍需改进

现有视频指纹匹配算法大都是直接对参考视频和查询视频的指纹进行匹配，通过度量两指纹的距离来判定是否发生视频拷贝，这种方法比较简单，但实际效果不太理想。如果利用机器学习里的分类算法，将指纹匹配问题转换成根据视频特征进行分类的问题，则匹配效果将得到大大提高[31]。

4 总结与展望

本文介绍一种解决数字图书馆中视频版权保护问题的方法，总结了基于内容的视频拷贝检测的主要研究内容和方法。基于内容的视频指纹可以对视频进行惟一性标识，更好的保护视频作者的知识产权，减少数字重复的视频信息。目前已经有较多视频指纹提取和匹配方法，但还未找到一个对各种攻击都有效的方法，还需要不断克服难题。要取得到较好的检测效果，就要使匹配算法和提取的视频指纹相协调，通过分析视频指纹的特性来选择指纹匹配方法，才能提高检测系统的查全率和准确率[32]。通过分析最新的研究成果，我们认为以后该领域的研究主要在于新的特征描述符的开发，以及融合空域、时域、变换域等多特征的视频指纹构建技术开发。

参考文献

[1]聂秀山.基于鲁棒哈希的视频拷贝检测技术研究[D].济南：山东大学，2011.

[2]靳延安.基于内容的视频拷贝检测研究[J].计算机应用，2008，28（8）：2021-2023.

[3]聂秀山，刘琚，孙建德.数字图书馆视频资源的拷贝检测方案[J].图书情报工作，2010，54（7）：123-126.

[4]Naphade M R，Yeung M M，Yeo B L.A novel scheme for fast and efficient video sequence matching using compact signatures[C].Electronic Imaging.International Society for Optics and Photonics，1999：564-572.

[5]Xing Su，Tie jun Huang，Wen Gao.Robust video fingerprinting based on visual attention regions.Proceedings of the Acoustics，Speech and Signal Processing，2009：1525-1528. [6]Hampapur Arun，Bolle Rund M.Comparison of distance measures for video copy detection.Proceedings of the IEEE International Conference on Multimedia and Expo，2001：944-947.

[7]Hampapur A，Hyun K，Bolle R M.Comparison of sequence matching techniques for video copy detection.Electronic Imaging.International Society for Optics and Photonics，2002：194-201.

[8]Hua XS，Chen X，Zhang HJ.Robust video signature based On ordinal measure.In：Proc.of the Intl Conf.on ICIP，2004：685-688.

[9]汤海萍.基于时空信息表达的视频拷贝检测[D].北京：北京交通大学，2014.

[10]OostVeen，J.，Kalker，T.，Haitsma，J..Feature extraction and a database Strategy for video fingerprinting[C].Proc.5th Int.Conf Recent Advance in Visual Information Systems，2002：117-128.

[11]Lee S.，Yoo C.D..Video fingerprinting based on centroids of gradient orientations[C].Proc.Int.Conf.Acoust.Speech and Signal Processing（ICASSP），2002，2：401-404.

[12]Lee S.，Yoo C.D..Robust video fingerprinting for content-based video identification[J].IEEE Trans.Circuits Syst.Video Technol，2008，18（7）：983-988.

[13]鲍伟.基于多特征融合的视频拷贝检测技术研究[D].郑州：解放军信息工程大学信息技术研究所，2013.

[14]Zhao Y X，Liu G J，Dai Y W，et al.Robust hashing based on persistent points for video copy detection[C].Computational Intelligence and Security，2008.CIS08.International Conference on.IEEE，2008：305-308.

[15]Natsev A，Hill M，Smith J R.Design and evaluation of an effective and efficient video copy detection system[C].Multimedia and Expo（ICME），2010 IEEE International Conference on.IEEE，2010：1353-1358.

[16]许，薛智锋，陈福才.基于改进的近邻传播学习算法的视频拷贝检测[J].计算机工程与设计，2014，35（9）：3185-3189.

[17]张三义，张兴忠，郝晓燕.基于ORB和灰度序特征的视频拷贝检测[J].计算机应用研究，2014，31（10）：3113-3116.

[18]Indyk P.，Iyengar G.，Shivakumar N..Finding pirated video sequences on the Internet，Tech.Rep.，Stanford Info Lab，Stanford University，1999.

[19]Chen L.，Stentiford F.W.M..Video sequence matching based on temporal ordinal measurement[J].Pattern Recognition Letters，2008，29（13）：1824-1831.

[20]Zhang Z，Zhang R，Cao C.Video copy detection based on temporal features of key frames[C].Artificial Intelligence and Education（ICAIE），2010 International Conference on.IEEE，2010：627-630.

[21]郭俊波，李锦涛，张勇东.基于轨迹行为模式特征的视频拷贝检测算法[J].计算机辅助设计与图形学学报，2010，22（6）：943-948.

[22]J.Wang，Z.Y.Chen，Y.Wu.Action Recognition with Multiscale Spatio-Temporal Contexts[J].IEEE Conference on Computer Vision and Pattern Recogniton，2011：3185-8192.

[23]Kim C，Vasuedv B.Spatiotemporal sequence matching for efficient video copy detection[J].IEEE Transactions on Circuits and Systems for Video Technology，2005，15（1）：127-132. [24]潘雪峰，李锦涛，张勇东，等.基于视觉感知的时空联合视频拷贝检测方法[J].计算机学报，2009，32（1）：108-114.

[25]Swaminathan A.，Mao Y.，Wu M..Image hashing resilient to geometric and filtering operation[C].IEEE Workshop on Multimedia Signal Processing（MMSP），2004：355-358.

[26]Coskun B.，Bulent S.，Nasir M..Spatio-Temporal Transform Based Video Hashing[J].IEEE Trans on Multimedia，2006，8（6）：1190-1208.

[27]王大永.感知视频指纹算法研究[D].上海：上海交通大学，2012.

[28]张勇东，张冬明，郭俊波.压缩域快速视频拷贝检测算法[J].通信学报，2009，30（3）：135-140.

[29]Gengembre N，Berrani S A.A probabilistic framework for fusing frame-based searches within a video copy detection system[C].Proceedings of the 2008 international conference on Content-based image and video retrieval.ACM，2008：211-220.

[30]Wei S，Zhao Y，Zhu C，et al.Frame fusion for video copy detection[J].Circuits and Systems for Video Technology，IEEE Transactions on，2011，21（1）：15-28.

[31]陈秀新.多特征融合视频复制检测关键技术研究[D].北京：北京工业大学，2013.

[32]尹亚光，王晓霞.一种基于视频指纹的视频检索方法研究[J].电视技术，2014，38（15）：17-20.

数字图书馆中基于内容的视频拷贝检测关键技术研究

小编：邵奇可

相关推荐

热点推荐

相关搜索

最新排行