论文部分内容阅读
近十几年来,随着数字图像获取设备的日益方便,计算机存储介质成本的不断降低,互联网络技术迅速发展,同时随着人们对可视媒体的日益兴趣和关注,互联网上数字图像的数量和种类正在以前所未有的速度增长。互联网正在变成一个无比巨大的图像数据库,图像数量数以亿计。但是在这些海量的图像数据中,莨莠并生,雅俗共存,既有有益的内容也有有害的内容。如何有效地管理图像数据,包括存储、传输、检索、过滤等,成为亟待解决的问题。
本文针对图像数据管理中的两个问题,即如何检索有用的图像和如何过滤有害的图像,展开相关的关键技术研究。特别地,在图像检索方面,本文主要研究了基于对象的图像检索技术,即用户通过指定某类对象的一个或几个具体样例,在图像数据集中检索出包含有与指定样例具有相同语义类别的对象的图像。例如,用户通过指定一张人脸图像,检索出所有含有人脸的图像。在图像过滤方面,本文主要研究了成人图像过滤技术,因为这类图像的泛滥已经引起社会各界的普遍警觉和反感。本文做出了如下主要贡献:
1)提出了一种利用可视词组的对象检索方法。该方法能够检索出包含有用户指定的感兴趣对象的图像。本文把图像与文本相类比,提出了图像表达的五种语义层次,即可视字母,可视词语,可视词组,可视句子以及可视文章。在这种类比的基础上,分类比较了现有的基于内容的图像检索方法并指出其优缺点,并进一步提出了一种利用可视词组的基于对象的图像检索方法。所提出的方法首先检测图像中的局部区域,通过矢量量化为可视词语,把图像表示为若干可视词语的集合;接着通过频繁模式挖掘算法,把空间上临近并且频繁共现的可视词语构造为可视词组;然后通过对可视词语/词组的索引和检索来实现对感兴趣对象的索引和检索。实验结果表明,可视词组能有效地表达图像中对象的结构化信息,并且有助于快速检索。
2)提出了两种高效的人体皮肤区域检测算法。人体皮肤区域检测是图像分析中非常关键的技术之一。尤其在敏感图像检测应用中,人体皮肤区域检测技术往往作为前期处理的关键步骤。本文提出了两种高效的人体皮肤区域检测算法:其一,针对JPEG压缩格式的图像提出了一种在图像压缩域上的自适应阈值皮肤区域检测算法,该算法无需完全解码图像,极大地提高了皮肤区域检测的速度。同时,该算法能根据图像内容自适应选择检测阈值,可以有效地改善皮肤区域检测结果;其二,为了提高不同光照条件下皮肤区域检测的鲁棒性,提出了一种基于多贝叶斯分类器的皮肤像素分类算法。该算法首先对待检测图像进行分类,对每一类分别建立肤色分布模型,通过分而治之的策略达到提高正检率和降低误检率的目的。
3)提出了一种基于多模式信息的敏感图像检测算法。该算法的核心思想是融合包括相关文本和图像内容在内的多模式信息,用于敏感图像检测,使基于文字信息的检测方法与基于图像内容的检测方法互相弥补,克服单纯的基于文字信息和单纯的基于图像内容的检测方法的不足。在基于图像视觉内容的检测中,本文首先进行皮肤区域检测,然后提取图像的视觉特征并把这些特征输入AdaBoost分类器;在基于文字的检测中,笔者搜索图像相关文字中的敏感关键字,并且利用Bayes方法计算图像为成人图像的概率;最后我们把基于视觉内容和基于文字的分类结果结合起来,得到最终的检测结果。实验结果表明,在一个包含有将近1,000,000幅真实网络图像的数量集上,所提出的算法能够达到93.40%的正检率和7.72%误检率,检测速度平均为0.157幅/秒。
4)设计并实现了敏感图像过滤系统ImageGuard和PictureCensor。ImageGaurd定位为个人电脑本机应用,可以检测出存储在电脑上的敏感图像和视频。PictureCensor是一个网络防火墙系统,提供图像过滤和网站过滤两大功能,系统中的这两大功能模块互相增益:网站过滤模块利用图像分类的结果实现对网站的分类,并且只针对含有超过一定数量疑似成人图像的网站进行分析;图像过滤模块利用网站分类的结果实现对特定网站屏蔽,直接封杀对敏感网站内容的获取。这些功能提高了整个系统的过滤性能和效率,并且节省了网络带宽和计算资源。整个系统具有全面监控,过滤速度快,过滤精度高,在实际应用中能自我增强的特点。
总之,本文的研究工作面向用户迫切的应用需求和广泛的应用前景,深入研究了图像数据管理的自动分析技术,重点为基于对象的图像检索和成人图像过滤提供技术方法,从而为帮助用户更好地管理、使用图像媒体数据提供解决方案。