全景式搜索引擎关键技术研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liarcher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,互联网的信息承载方式开始从单一的发布式服务向着互动式服务方向产生了巨大的变革,包括百科知识、博客、论坛、图像以及视频分享在内的一系列网络应用成为了这一时代的代表性服务方式。随着此类代表着更为开放与自由的信息媒体的成熟与发展,标签(又称网络书签)作为一种以自由开放为特点的全新的网络资源组织和管理方式,正逐渐被越来越多的网络应用所接受并开始形成一种可被广泛利用的网络资源。在此环境下,本文提出了一种全新的检索概念:全景式搜索引擎,其特点在于:针对用户输入的检索词,搜索引擎在后台对返回内容按照其资源表现形式和体裁(如百科知识、博客、论坛、新闻、图像、视频)进行分类,并据此将返回内容重构并组织成专题式的结果网页,从而为用户提供更为全面细致的检索信息。在此基础上,本文结合以标签表示的主题式搜索引擎技术提出并实现了一种全新基于主题的全景式搜索引擎Foxinfo,提供了一种面向主题搜索以多种形式信息展现主题相关信息的搜索引擎模式。结合Foxinfo系统,本文针对全景式搜索引擎的关键实现技术和主题式搜索技术中的主题(标签)关系挖掘技术开展了深入的研究和探讨,主要的内容有以下几个方面:第一,本文首先提出并实现了全景式搜索引擎的系统架构,并对其中的关键技术进行了探讨与研究。在数据采集技术方面对比了网络爬虫技术并设计实现了数据计算机新闻包装器。在数据索引中研究了如何有效地组织爬取的各种形式的网络资源。最后,在针对在线服务的关键技术研究中,本文对在线服务的通信模式以及各个检索模块的工作过程及其用到的技术进行了详细的阐述。第二,本文针对主题式搜索引擎中的相关主题(标签)挖掘技术展开了研究。本文以百度知识掌门人的问题及其对应标签为实验数据集,利用文档共现比、文档共现频率、向量空间模型等三种方法对标签的相关性挖掘技术展开了研究。经实验发现,文档共现比方法在实验数据集中表现优于另两种算法。第三,基于针对上述相关标签挖掘算法的研究,本文进一步探索了从标签集合中构建层次关系树的相关技术,提出并实现了以文档共现比和向量空间模型为基础度量的标签凝聚算法和聚类标签凝聚算法两种层次关系构建算法。实验表明,上述两种算法在百度知识掌门人的实验数据集上可以取得很好的构建效果。
其他文献
人体运动跟踪是人体运动分析中一个积极而又重要的研究领域,而人体关节点跟踪又是人体运动跟踪的重要组成部分。本文的研究内容正是跟踪人体全身14个关节点。本文首先建立人
在社会、经济、国际合作、工业等众多领域之中,研究者面临着各种各样的约束优化问题,他们对于求解约束优化问题的方法的研究也越来越深入。然而,有一类在现实中广泛存在的约
传统基于Internet的远程分布式监控系统,客户端显示依赖于浏览器,一般采用ASP、JSP或者PHP技术来表现界面,而这些基于HTML的表现形式有很多限制,频繁的页面刷新问题使得用户
城市交通流通过大量的交通流信息表征其特性和规律,综合反映了城市交通综合状况,是交通管理、交通决策必不可少的科学依据,是十分宝贵的信息资源,也是城市居民出行的主要参照
随着全球化的推进,企业的物理位置开始逐渐分散、部门间的协作日益频繁,企业对日常业务活动详细信息的需求也逐渐提高,传统的工作流管理系统已经不能满足当代企业的实际需要,
步态识别是目前机器视觉领域中备受关注的研究方向,主要是通过对当前所监控视频中行人的走路姿态进行特征提取,最终完成身份识别任务。步态识别是目前唯一一个能够实现远距离
在信息时代中,“普适计算”得到了广泛的应用,通过普适计算从而可以提供设备的利用率,使人们在生活中得到的服务更方便、更加有效。人机交互是普适计算研究中最热点的课题之
无线网络具有成本低、部署快、易维护等优点,在工业现场中得到越来越多的应用。与一般无线网络相比,工业无线网络对传输时延、实时性、可靠性等网络性能有更高要求。传输调度
可扩展标记语言(eXtensible Markup Language,XML)在Internet中的地位已经确立,XML的研究和应用正在兴起并在Internet时代背景下迅速发展,XML数据管理技术成为数据库学术界最
文档格式的多样化给文档阅读软件带来了挑战,特别是随着各类便携式电子阅读器在市场上的竞争发展,与之相对应的电子文档格式也是互相对立,互不相容。针对这一问题,本文在嵌入