论文部分内容阅读
随着Web2.0时代的到来,互联网的信息承载方式开始从单一的发布式服务向着互动式服务方向产生了巨大的变革,包括百科知识、博客、论坛、图像以及视频分享在内的一系列网络应用成为了这一时代的代表性服务方式。随着此类代表着更为开放与自由的信息媒体的成熟与发展,标签(又称网络书签)作为一种以自由开放为特点的全新的网络资源组织和管理方式,正逐渐被越来越多的网络应用所接受并开始形成一种可被广泛利用的网络资源。在此环境下,本文提出了一种全新的检索概念:全景式搜索引擎,其特点在于:针对用户输入的检索词,搜索引擎在后台对返回内容按照其资源表现形式和体裁(如百科知识、博客、论坛、新闻、图像、视频)进行分类,并据此将返回内容重构并组织成专题式的结果网页,从而为用户提供更为全面细致的检索信息。在此基础上,本文结合以标签表示的主题式搜索引擎技术提出并实现了一种全新基于主题的全景式搜索引擎Foxinfo,提供了一种面向主题搜索以多种形式信息展现主题相关信息的搜索引擎模式。结合Foxinfo系统,本文针对全景式搜索引擎的关键实现技术和主题式搜索技术中的主题(标签)关系挖掘技术开展了深入的研究和探讨,主要的内容有以下几个方面:第一,本文首先提出并实现了全景式搜索引擎的系统架构,并对其中的关键技术进行了探讨与研究。在数据采集技术方面对比了网络爬虫技术并设计实现了数据计算机新闻包装器。在数据索引中研究了如何有效地组织爬取的各种形式的网络资源。最后,在针对在线服务的关键技术研究中,本文对在线服务的通信模式以及各个检索模块的工作过程及其用到的技术进行了详细的阐述。第二,本文针对主题式搜索引擎中的相关主题(标签)挖掘技术展开了研究。本文以百度知识掌门人的问题及其对应标签为实验数据集,利用文档共现比、文档共现频率、向量空间模型等三种方法对标签的相关性挖掘技术展开了研究。经实验发现,文档共现比方法在实验数据集中表现优于另两种算法。第三,基于针对上述相关标签挖掘算法的研究,本文进一步探索了从标签集合中构建层次关系树的相关技术,提出并实现了以文档共现比和向量空间模型为基础度量的标签凝聚算法和聚类标签凝聚算法两种层次关系构建算法。实验表明,上述两种算法在百度知识掌门人的实验数据集上可以取得很好的构建效果。