论文部分内容阅读
随着计算机和网络的普及,电子政务成为政府改进效率的一个重要方向。在电子政务的实际应用中,对网上多语种信息的搜集、文档化以及全文检索成为一个重要课题。为了解决这一问题,本文设计了一个多语种环境下、应用于电子政务的全文检索搜索引擎系统。 搜索引擎的设计涉及到中文分词、数据收集、索引组织、检索结果排序、用户行为分析等关键技术。从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成。 首先,本文对全文检索的基础理论——包括定义、搜索引擎的概念和分类进行了介绍,并对搜索引擎的系统设计、结构以及评价标准做了阐述。其次,本文对中文搜索引擎的基础技术一中文分词技术进行了介绍,并对中文自动分词的歧义理论法进行了深入的研究。在这个研究的基础上,实现了最大正向匹配算法,以及“最大正向匹配+回退一字”的算法。同时,针对这两种算法提出了一种可用于词表存储的存储结构。 然后,本文对整个全文检索的开发环境—lucene的组织结构、数据类型、索引结构作了一定的研究,并在此基础上提出了整个信息搜集检索系统的系统结构、系统设计以及技术实现方法。 最后,本文给出了运行结果以及试验数据、评价,并给出了分词算法在lucene环境中的java源码。