信息检索系统查询词义聚类技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一词多义是普遍现象,而且随着时代的发展和语言的丰富,词义在使用中随时在变化着,这是语言学家也无法准确把握或预测的现象,本文利用索引系统对实体名词的多义进行了分析,希望可以通过统计理论区分词义。   首先,本文介绍了研究背景和现状,确定了本文的研究的目标——多义实体名词,结合搜索引擎百度和谷歌的实例,对词义区分的必要性和可行性进行了深入探讨,并介绍了现有技术和研究情况。   然后,介绍了一种高性能的索引结构以及检索系统的技术方案,即从一个被一组关键词索引的文档集合中根据搜索请求与被索引文档的相关程度而选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户。   最后,本文对查询词的多义判断实现了在搜索引擎中的应用,进行了系统介绍,包括设计与实现过程,以及对实验结果的评测分析。
其他文献
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百
随着处理器频率的提高,处理器与存储系统之间的性能差异越来越大。存储层次的设计,成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何
目前,关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性,如何为数据流管理系统设计一个具有自适
随着中文信息处理技术的迅猛发展,人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替,可以实现信息的记录、检索等各种功能。但是,对于汉字本身的信息处理(如
我国处于东亚季风区,主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因,有重要的研究意义。
随着云计算、大数据和互联网服务的兴起,数据中心中出现了一类轻量级的可扩展的负载,传统的高性能服务器对这类负载的适配性并不是很好,主要体现在服务器计算密度低,资源利用率不
P2P技术的迅速发展给数字图书馆的建设提供了广阔的应用空间。分布式数字图书馆中的一些应用软件在分布式互操作方面具有较大的共通性,若能为它们提供一个通用的P2P应用平台和
随着Internet的快速发展,Web环境已拥有了海量信息。Web信息中包含大量有用的知识:通过Web信息挖掘,我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息
本文提出了动态代码植入技术(Dynamic Code Implantation),它借用半虚拟化的方式,动态修改全虚拟化系统中客户操作系统(Guest OS)的内核代码。在有硬件辅助的全虚拟化虚拟机管理
虚拟植物是应用计算机模拟植物在三维空间中的生长发育状况,是虚拟现实技术在农业领域的应用。其核心内容是生长模型和可视化技术,生长模型反映植物形态结构的动态变化,可视化技