Design and Implementation of Large Scale Near-duplicate Image Detection System

(1)

学校编码：10384 分类号密级学号：X2011230380 UDC

工

程

硕

士

学

位

论

文

大规模的近似图像检测系统的设计与实现

Design and Implementation of Large Scale Near-duplicate

Image Detection System

李靖

指

导

教

师：

王备战教授

专

业

名

称：

软

件

工

程

论文提交日期：

2 0 1 3 年 5 月

论文答辩日期：

2 0 1 3 年 6 月

学位授予日期：

年

月

指

导

教

师：

答辩委员会主席：

2013

年

6

月

厦门大学博硕士论文摘要库

(2)

厦门大学学位论文原创性声明

本人呈交的学位论文是本人在导师指导下

,

独立完成的研究成果。

本人在论文写作中参考其他个人或集体已经发表的研究成果，均在文

中以适当方式明确标明，并符合法律规范和《厦门大学研究生学术活

动规范（试行）》

。

另外，该学位论文为（

）课题（组）

的研究成果，获得（

）课题（组）经费或实验室的

资助，在（

）实验室完成。

（请在以上括号内填写课

题或课题组负责人或实验室名称，未有此项声明内容的，可以不作特

别声明。）

声明人（签名）：

年

月

日

(3)

厦门大学学位论文著作权使用声明

本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》

等规定保留和使用此学位论文，并向主管部门或其指定机构送交学位

论文（包括纸质版和电子版）

，允许学位论文进入厦门大学图书馆及

其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、

硕士学位论文共建单位数据库进行检索，将学位论文的标题和摘要汇

编出版，采用影印、缩印或者其它方式合理复制学位论文。

本学位论文属于：

（

）

1.

经厦门大学保密委员会审查核定的保密学位论文，

于

年

月

日解密，解密后适用上述授权。

（

√

）

2.

不保密，适用上述授权。

（请在以上相应括号内打“√”或填上相应内容。保密学位论文

应是已经厦门大学保密委员会审定过的学位论文，未经厦门大学保密

委员会审定的学位论文均为公开学位论文。此声明栏不填写的，默认

为公开学位论文，均适用上述授权。）

声明人（签名）：

年

月

日

(4)

摘

要

近似图像检索是多媒体信息处理领域一个重要的问题，对于图像进行快速准确的描述，并进行匹配检索是这项技术中的重点和难点。由于学术界的持续关注，关于近似图像检索的相关研究取得了丰硕的成果。特别是近几年来，基于小规模数据集的近似图像检测的问题基本已经解决。但是，随着互联网技术的飞速发展，基于大规模的近似图像检测问题浮现出来。如何在海量的数据中高效的检索出近似的图像仍然存在着比较大的挑战。本文采用基于SIFT的局部特征描述图像，提出一种高效的检索算法用于解决大规模近似图像检测中出现的问题。本文的主要内容如下： 1. 系统的分析了SIFT特征的特点，提出了一种基于最大熵的特征过滤算法，用于提高SIFT特征所包含的信息量，较传统方法减少了存储空间，提升了检索效率。 2. 采用基于笛卡尔积的量子化方法对特征向量进行量子化计算，减小了检索空间，提升了检索速度。并且该算法在检索结果的精度表现上超过传统的检索算法。 3. 采用基于图割模型的查询扩展技术，在提升系统召回率的同时保持系统的检索精度不变。 4. 搭建了实验检索系统，通过在各种不同数据集上的测试，展示该算法在基于大规模图像近似检测上的良好表现。关键词：SIFT特征；量子化；查询扩展

(5)

Abstract

Near-duplicate image detection is an important issue in multimedia information processing field. The difficulty of this technology is how to describe image quickly and accurately. Due to the sustained attention of the academic community, relative technologies have achieved prefect preference in small dataset. However, as the Internet developing rapidly, large scale based near-duplicate image detection became a serious problem. How to search in vase amounts of data still leave us great challenges. This article use SIFT based local descriptors, and propose an efficient search algorithm for large scale near-duplicate image detection. The main content of this dissertation is as follows:

1. Systematic analysis of the characteristics of the SIFT features, and propose a filtering algorithm based on maximum entropy theory, which can greatly reduces the storage space, and improve the retrieval efficiency.

2. Reduce the search space and improve the retrieval speed by using Cartesian product quantization base algorithm. The algorithm performs better than others traditional search algorithms.

3. Improve system recall rate by using graph cut model based query expansion technique, while maintaining the same accuracy of the retrieval system.

4. Built experimental retrieval system. Show the good performance of the algorithm on large scale near-duplicate image detection.

Keywords: SIFT feature; Quantization; Query Expansion

(6)

2.1 图像的特征向量简述 ... 5 2.2 图像的多尺度表示 ... 5 2.2.1 图像金字塔 ... 6 2.2.2 高斯金字塔 ... 6 2.2.3 高斯滤波 ... 7 2.3 SIFT特征提取算法 ... 7 2.3.1 高斯差分滤波 ... 8 2.3.2 尺度空间极值检测 ... 8 2.3.3 关键点的参数方向 ... 11 2.4 特征处理 ... 13 2.4.1 基于最大熵的特征过滤算法 ... 13 2.5 本章小结 ... 14

第三章

向量的最近邻搜索

... 16

3.1 相似度计算 ... 16 3.2 最近邻搜索 ... 16 3.3 相关研究 ... 17 3.3.1 Bag-of-Words模型 ... 17 3.3.2 基于笛卡尔积的量子化算法 ... 18 3.3.3 向量量子化 ... 18

(7)

3.3.4 笛卡尔积量子化 ... 19 3.3.5 采用笛卡尔积量子化的方法进行检索 ... 21 3.3.6 非穷举搜索 ... 23 3.3.7 查询扩展 ... 27 3.4 本章小结 ... 29

第四章

系统设计

... 30

4.1 近似图像检测系统的基本原理 ... 30 4.1.1 系统基本框架 ... 30 4.1.2 模块功能简介 ... 31 4.2 系统构架设计 ... 32 4.3 系统功能设计 ... 34 4.4 数据管理 ... 35

第五章

实验以及结果分析

... 37

5.1 算法的性能指标和评价准则 ... 37 5.1.1 准确率与查全率 ... 37 5.1.2 检索效率 ... 38 5.1.3 ROC曲线 ... 38 5.2 数据集的构建 ... 39 5.3 基于最大熵的SIFT特征过滤实验 ... 40 5.4 查询扩展实验 ... 41 5.5 检索算法实验 ... 42 5.5.1 内存与检索精度的平衡 ... 42 5.5.2 与目前最佳检索算法的对比 ... 44 5.6 算法的复杂与速度 ... 45 5.6.1 大规模检索实验 ... 46 5.6.2 大规模图像索引评估 ... 47 5.7 本章小结 ... 47

第六章

总结和展望

... 49

6.1 总结 ... 49

(8)

6.2 展望 ... 49

参考文献

... 50

致

谢

... 53

(9)

Contents

Chapter1 Introduction ... 1

1.1 Research Background and Significances………...…1

1.2 Relative Research………...….1

1.3 Near-duplicate Image Detection System and Application Domain…….2

1.4 The Challenge of Near-duplicate Image Detection………...3

1.5 Main Research and Organizational of Dissertation……….3

Chapter2 Feature Selection Based on SIFT ... 5

2.1 Image Feature Vector………..5

2.2 Multi-Scale Image Presentation……….5

2.2.1 Image Pyramid……….6

2.2.2 Gaussian Pyramid………6

2.2.3 Gaussian Filtration………...7

2.3 SIFT Extraction………...7

2.3.1 Differential Gaussian Filter……….8

2.3.2 Extreme Detection in Scale Space………...8

2.3.3 Key Point Orientation………11

2.4 Feature Selection………...13

2.4.1 Maximum Entropy Based Feature Selection………13

2.5 Summary………14

Chapter3 Vector Nearest Neighbor Search ... 16

3.1 Similarity Between Vectors………..16

3.2 Nearest Neighbor Search………..16

3.3 Relative Research………..17

3.3.1 Bag-of-Words Model……….17

(10)

3.3.2 Cartesian Product Based Quantization Algorithm……….18

3.3.3 Vector Quantization………...18

3.3.4 Cartesian Product Quantization……….19

3.3.5 Product Quantization Based Retrieval………...21

3.3.6 Non-Exhaustive Search……….23

3.3.7 Query Extension………27

3.4 Summary………29

Chapter4 System Design ... 30

4.1 Near-Duplicate Image Detection System Basic Principle………..30

4.1.1 System Framework………30

4.1.2 Module Function Brief Introduction……….31

4.2 System Framework Design………..32

4.3 System Function Design………34

4.4 Database Management………..35

Chapter5 Experiment and Result Analysis ... 37

5.1 Algorithm Performance………37

5.1.1 Precision and Recall………..37

5.1.2 Search Efficiency………..38

5.1.3 ROC Curve………38

5.2 Dataset Construction……….39

5.3 Maximum Entropy Filtration Experiments………40

5.4 Query Extension………41

5.5 Search Algorithm………..42

5.5.1 Tread-off Between Memory and Precision………42

5.5.2 Compare with the State-of-Art………..44

5.6 Algorithm Speed and Complexity………45

5.6.1 Experiment in Large Scale……….46

(11)

5.6.2 Large-Scale Index………..47

5.7 Summary………47

Chapter6 Conclusions and Outlook ... 49

6.1 Conclusions………49

6.2 Outlook………...49

References………...50

Acknowledgments………...53

(12)

第一章绪论 1

第一章

绪论

1.1

研究背景

图像与视频等多媒体信息在人们的日常生活中扮演着重要的角色。特别在数字图书馆、医学、数字地图、电影工业、国防安全等领域，具有极为重要的地位。近些年来，随着互联网以及多媒体等技术的发展，人们似乎拥有了无尽的图像以及视频资源，大数据的时代已经到来。然而这些数字图像与视频却无序的分布在世界上的每一个角落，这为人类开发利用这些资源造成了障碍。为了更加有效与合理的利用这些多媒体数据，需要一种可以快速并准确地查找图像的技术，这就是所谓的图像检索技术。但是，由于人类认知与图像底层特征之间存在“语义鸿沟”，导致当前的图像检索技术无法完全实现基于内容的检索。另外，由于互联网信息的共享性与开放性，数字图像与视频的版权问题也日益严重。图像拷贝检测系统可以有效的解决这一问题，该系统能够在大量的数据中找到对某张图像内容进行拷贝的图像，从而对该图像进行版权追究。然而，在浩瀚如海的互联网上进行拷贝检测就如同大海捞针，如何提高在大数据中进行检索的效率成为了一个亟待解决的问题。所谓近似图像(Near-duplicate image)，就是对于原有图像进行仿射变换、模糊、放大等处理后所得到的图像。基于大规模的近似图像检测技术，就是在大规模的图像数据中，找到某张图像的近似图像。对于该技术的研究，有助于推动图像检索、图像视频拷贝检测等技术的发展。因此，该技术也是计算机视觉与信息检索领域研究的热点问题之一。

1.2

大规模的近似图像检测系统的设计与实现

2

在内容上一致或相似的图像集合的过程。在CBIR领域近些年来同样产生了丰富

的成果，其中包括很多著名的实验原型系统以及商业软件，例如 IBM 公司的

QBIC（Query by Image Content）,Virage公司开发的Virage系统以及MIT多媒体

实验室开发的Photobook系统。实验原型系统中比较具有代表性的有清华大学计

算机系结合863高技术研究发展项目研制的“Web如上基于内容的图像检索”系

统, Excalibur公司开发的Retrieval Waretl3 系统,哥伦比亚大学开发的WebSEEK

系统,UCSB大学开发的Netra系统原型以及美国伊利诺斯大学 Urbana-Champian

分校开发的 MARS(MultimediaAnalysis and Retrieval System)系统。

但是随着互联网技术的发展，互联网上面的数据呈现指数级的增长，如何解决基于互联网级别的大规模图像视频检测仍然是一个挑战。当前，无论是商业的检索系统还是学术实验，所能处理的数据量都要比互联网这个规模小得多。例如，近来最优秀的著名商用近似图像搜索引擎 Tineye（http://www.tineye.com）到2010 年为止也仅索引了1.8亿张图片，这个规模远远无法与整个互联网中图片的数量相比[1]_。

1.3

大规模的近似图像检测系统及其相关技术的应用领域

大规模的近似图像检测系统及其相关技术对于多媒体内容的管理、分析具有很高的价值。同时该技术的发展对多媒体检索以及计算机视觉领域都具有很强的推动作用。大规模的近似图像检测系统及其相关技术具有广泛的应用领域[2]_，例如 : 1. 互联网版权保护以及敏感信息过滤; 2. 印章识别; 3. 医学影像分析; 4. 远程医疗系统,特别对远程会议,基于内容的图像查询可提高效率并节省大量的网络传输费用; 5. 专利检索、商标注册管理; 6. 人口户籍管理、档案查询,以及公安、安全监视系统; 7. 数字视频的协同生产和编辑以及传输播发;

(14)

第一章绪论 3 8. 地图地理信息系统、地理事件分析; 随着互联网技术的不断发展以及其在各个领域的广泛应用，人们对于图像检索技术的需求还将进一步增强，对于相关技术发展的需求也将越来越迫切。

1.4

大规模近似图像检索的挑战

虽然近似图像检测在小规模数据集上已经得到了很好的结果，并且已经开始应用在商业领域。但是对于大规模数据的处理仍然存在着挑战。

首先，是特征选择的问题，目前所广泛使用的特征都是如SIFT（Scale Invariant

Feature Transform）之类的局部特征。但是这类特征的提取速度相对较慢，对于实时性要求比较高的系统来说会成为一个瓶颈问题。而且提取出来的数据量也会较大，这将极大的降低检索过程的效率。其次，在建立索引的过程中需要对于高维的特征空间进行划分，从而更加有效的进行检索。但目前广泛采用的基于Bag-of-Word（BOW）的方法在高维数据上的表现还比较差，随着数据量的增加，聚类的数量也需要相应的增加，这同样会降低检索时的效率。随着近几年来相关技术的发展，上面的问题已经得到了一些缓解，但是这些问题还没有得到根本性的解决，也没有一款令人非常满意的商用近似图像或视频检测产品。

1.5

本文研究的主要内容以及结构组织

本文以多尺度图像特征（SIFT）为基础，通过对于SIFT特征的选择与过滤得到更加精确的图像特征。然后采用基于量子化的方法（Product Quantization），实现对数据空间的划分，从而对数据库中的特征建立高效的索引，提高检索效率。该算法适用于大规模的实时图像最近邻搜索。本文的研究工作主要分为以下几点：1.系统的学习 SIFT 特征，分析该特征在图像最近邻检索中的利弊，针对SIFT的缺点，提出一种基于最大熵的特征选择算法，提高特征所表达的信息量。2.对特征进行量子化计算，建立数据索引。 3.采用基于图算法的伪相关反馈技术对初步的检索结果进行查询扩展，从而提高系统的召回率。本文的特点如下：1.对 SIFT 特征进行过滤，提高了特征所包含

厦门大学博硕士论文摘要库

(15)

大规模的近似图像检测系统的设计与实现 4 的信息量，从而避免了经典图像检索算法中的几何验证过程，提高了检索效率。 2.将原始数据空间映射到笛卡尔低维子空间，从而降低了检索空间的大小，提升了检索的速度。3.采用基于图割的方法来提升搜索结果的质量。本文的组织结构如下：第一章绪论，对大规模近似图像检测及其相关技术的发展现状进行研究，介绍了通常实现该系统所采用的方法，以及系统的工作流程。提出了这项研究所面对的挑战与重要意义。最后，概括了本文的研究内容以及文章的组织结构。第二章详细介绍 SIFT 特征提取算法，并对其结构特点以及在检索中使用的利弊进行深入的分析，从而提出了基于最大熵的特征选择算法。第三章简要介绍当前广泛使用的特征检索算法，着重介绍基于量子化的检索算法以及基于图割模型的查询扩展，并分析其与经典检索算法的比较优势和缺点。第四章介绍系统的实现框架、关键技术以及部分技术实现细节。第五章实验及结果分析,首先介绍近似图像检测算法的性能指标和评价准则，然后对前文中构建的大规模的近似图像检索系统进行实验测试，同时分析算法的优缺点。第六章总结和展望。对本文的工作进行了总结,分析了这项技术的应用前景,提出了进一步的工作目标。

厦门大学博硕士论文摘要库

(16)

第二章基于SIFT的特征选择算法 5

第二章

基于

SIFT

的特征选择算法

近似图像检测中最常用的模型是基于局部特征的模型,本章简要介绍了应用于近似图像检测的常见特征，并分析了各种特征的优缺点。着重介绍本文所采用的SIFT特征的提取方法，并分析其用于近似图像检测的利弊，创新性的采用基于最大熵的特征过滤算法，提高单位向量所包含的信息量，从而提升检索系统的效率。

2.1

图像的特征向量简述

如果要建立一个识别不同种类对象的系统,首先必须要确定应测量对象的哪些特征以产生描述参数。通常采用向量来表示一个特征，适当地选择特征是很重要,良好的特征应具有 4 个特征：1. 可区别性，对于属于不同类别的对象来说, 它们的特征值应具有明显的差异；2. 可靠性，对同类的对象,特征值应比较相近； 3. 独立性，所用的各特征之间应彼此不相关。相关性很高的特征可以组合起来使用,而不应该作为单独的特征使用,以减少噪声干扰；4. 数量少，信息检索系统的复杂性随系统的维数(特征的个数)迅速增长，较多的特征向量个数将提升系统的复杂性并导致检索效率的低下。在近似图像检索系统中，通常使用的特征包含两类：局部特征和全局特征。全局特征一般是建立基于图像空间、颜色等分布信息的模型。但是全局特征的主要缺点是对于图像的旋转、大小等信息不敏感，导致基于全局特征的近似图像检测系统对于图像拍摄角度等因素不具有鲁棒性，极大的降低了系统的性能。但是，基于全局的特征通常运行速度较快，适用于大规模的图像处理。当前，近似图像检测主要采用局部特征。局部特征对于图像的各种变换（大小、角度、模糊、画中画等等）具有很好的鲁棒性。但是，局部特征提取算法普遍比较复杂，算法的运行耗时较多，这对于大规模的数据处理存在较大的问题[3]_。

2.2

图像的多尺度表示

多尺度技术也称为多分辨率技术。多尺度图像技术指对图像采用多尺度的表达,并在不同尺度下进行处理。很多情况下，图像会进行不同尺度的伸缩变换，

(17)

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Full texts are available in the following ways:

1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submit requests online, or consult the interlibrary loan department in your library.

2. For users of non-CALIS member libraries, please mail to [email protected] for delivery details.

（http://www.tineye.com

Xiamen University Electronic Theses and Dissertations Database”. Full

http://etd.calis.edu.cn/ and submit

Design and Implementation of Large Scale Near-duplicate Image Detection System

学校编码：10384 分类号 密级 学号：X2011230380 UDC

大规模的近似图像检测系统的设计与实现

2 0 1 3 年 5 月

厦门大学学位论文原创性声明

中以适当方式明确标明，并符合法律规范和《厦门大学研究生学术活

资助，在（

声明人（签名）：

等规定保留和使用此学位论文，并向主管部门或其指定机构送交学位

编出版，采用影印、缩印或者其它方式合理复制学位论文。

不保密，适用上述授权。

声明人（签名）：

目录

3.3.4 笛卡尔积量子化 ... 19 3.3.5 采用笛卡尔积量子化的方法进行检索 ... 21 3.3.6 非穷举搜索 ... 23 3.3.7 查询扩展 ... 27 3.4 本章小结 ... 29

第四章

6.2 展望 ... 49

1.1 Research Background and Significances………...…1

Chapter2 Feature Selection Based on SIFT ... 5

2.1 Image Feature Vector………..5

Chapter3 Vector Nearest Neighbor Search ... 16

3.1 Similarity Between Vectors………..16

Chapter4 System Design ... 30

4.1 Near-Duplicate Image Detection System Basic Principle………..30

Chapter5 Experiment and Result Analysis ... 37

5.1 Algorithm Performance………37

5.7 Summary………47

Chapter6 Conclusions and Outlook ... 49

6.1 Conclusions………49

References………...50

第一章 绪论 1

第一章

大规模的近似图像检测系统的设计与实现

大规模的近似图像检测系统及其相关技术的应用领域

第一章 绪论 3 8. 地图地理信息系统、地理事件分析; 随着互联网技术的不断发展以及其在各个领域的广泛应用，人们对于图像检 索技术的需求还将进一步增强，对于相关技术发展的需求也将越来越迫切。

大规模近似图像检索的挑战

厦门大学博硕士论文摘要库

厦门大学博硕士论文摘要库

第二章 基于SIFT的特征选择算法 5

第二章

学校编码：10384 分类号密级学号：X2011230380 UDC

第一章绪论 1

第一章绪论 3 8. 地图地理信息系统、地理事件分析; 随着互联网技术的不断发展以及其在各个领域的广泛应用，人们对于图像检索技术的需求还将进一步增强，对于相关技术发展的需求也将越来越迫切。

第二章基于SIFT的特征选择算法 5