基于一种秘诀进MM分词算法的LUCENE全文检索系统的机制以及实现

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:shushuclover1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络的普及,电子政务成为政府改进效率的一个重要方向。在电子政务的实际应用中,对网上多语种信息的搜集、文档化以及全文检索成为一个重要课题。为了解决这一问题,本文设计了一个多语种环境下、应用于电子政务的全文检索搜索引擎系统。  搜索引擎的设计涉及到中文分词、数据收集、索引组织、检索结果排序、用户行为分析等关键技术。从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成。  首先,本文对全文检索的基础理论——包括定义、搜索引擎的概念和分类进行了介绍,并对搜索引擎的系统设计、结构以及评价标准做了阐述。其次,本文对中文搜索引擎的基础技术一中文分词技术进行了介绍,并对中文自动分词的歧义理论法进行了深入的研究。在这个研究的基础上,实现了最大正向匹配算法,以及“最大正向匹配+回退一字”的算法。同时,针对这两种算法提出了一种可用于词表存储的存储结构。  然后,本文对整个全文检索的开发环境—lucene的组织结构、数据类型、索引结构作了一定的研究,并在此基础上提出了整个信息搜集检索系统的系统结构、系统设计以及技术实现方法。  最后,本文给出了运行结果以及试验数据、评价,并给出了分词算法在lucene环境中的java源码。
其他文献
无线传感器网络具有广阔的应用前景,能应用于环境监测、城市管理、生物医疗、工农业控制、国防军事等领域,因而一经诞生就引起学术界、军界和工业界的极大关注。无线传感器网络
计算技术和无线通信设备的发展与结合使得随时随地获得个人位置成为可能,同时促进了新一类应用程序——位置服务(Location Based Service,LBS)的产生和发展。位置服务是与用户
项目管理子系统是中国国土资源航空物探遥感中心(AGRS)“管理与决策支持系统”项目的一部分,该项目主要建立项目管理、设备管理、合同管理、外事管理、质量文件管理、学会管理
学位
随着互联网技术和Web应用技术日新月异的发展,用户与应用程序之间的交互越来越频繁,大量的用户数据在互联网上传播。如何保证这些数据的安全,成为Web安全的研究目标。早期,人
无线传感器网络是当前国际学术界的研究前沿和热点,该技术具有广阔的应用前景,能应用于环境监测、城市管理、生物医疗、工农业控制、国防军事等领域。数据管理技术是无线传感器
随着计算机技术的发展,有关于多智能体系MAS(Multi-agent System)的研究已经成为人工智能领域的重要研究方向,也是计算机领域的一个重要研究方向。RoboCup(Robot World Cup),即
随着信息技术的不断发展,ERP系统已经成为现代企业管理必不可少的有力工具。成功实施的ERP系统可以帮助企业提高效率、优化流程,大大提高企业的竞争力;然而失败的ERP实施也曾给
教学评价应该是以教学目标为依据,对学习者在整个学习过程中的学习行为进行综合性的评判,而不能只是对学习者在学习结束后进行简单的总结性判断。但是,目前国内大多数网络教学的
随着Internet网络的飞速发展,网络教学系统得到广泛的应用,越来越多的人通过网络获取知识和信息。另一方面,随着多媒体技术的发展,人们对多种媒体信息的需求不断增加,不满足于只是
学位
当网络运用于教育领域,网络教学就应运而生。网络教学以开放的、灵活的、终身的教育为目标,是对传统教育方式的一种补充和延伸。与传统教学相比较,网络教学系统具有许多不可比拟