林业主题搜索引擎的设计与实现

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络信息量不断增加,如何从这海量的信息中得到需要的信息就显得尤为困难。通用搜索引擎试图检索更多的网页,同时提供多样化的服务。但面对浩瀚的网页信息和多样化的用户需求,这仍然显得杯水车薪。为了适应互联网的发展和用户的需求,主题搜索引擎便应运而生了。本文首先介绍了搜索引擎的历史现状、传统的通用搜索引擎的结构原理以及面临的问题。接着介绍了主题搜索引擎和通用搜索引擎的区别、网络爬虫和常用的开源索引框架Lucene。之后详细介绍了主题搜索引擎的主题表示方法、主题爬虫和分词等关键技术,并基于此设计了林业主题向量和基于Shark-Search的爬虫算法,采用主题词库和候选词库相结合的方式进行分词。最后,介绍了一个林业主题搜索引擎的实现,将抓取的主题网页数据解析后以结构化的方式提供检索。通过实验证明,在林业主题检索方面,本文的主题搜索引擎较Google、百度等通用搜索引擎在准确度方面有较大提升,具有一定的实用价值。
其他文献
无线音频传感器网络已成为计算机领域的前沿课题之一。无线音频传感器节点因受到体积、能耗、存储容量和通信能力等诸方面的限制,节点的设计需考虑诸多因素。本文通过分析无
人体日常生活运动分类在健康监护、日常生活锻炼等应用方面具有极其重要的意义,近年来得到了广泛的研究与应用。其中考虑到长时间监测佩戴的舒适性和可穿戴性,采用尽量少甚至单
门户可以将各种异构应用和数据资源集成到同一用户界面下,并根据用户或角色的不同,形成个性化访问页面。门户作为信息集成与发布的有效手段已经获得了广泛的认可。   门户
在传统的公钥密码学中,实体的身份和公钥通常是通过由证书权威颁发的公钥证书来绑定。然而,证书的存储和管理需要很高的计算和存储开销,大大加重了系统负担。为了简化公钥的管理
科研项目是指根据科技和经济社会发展需要,以科研发展资金支持或以科研政策调控、引导,由科研行政部门制订并组织实施的科学研究开发、科研产业化以及相关的科研活动。近年来,科
DNA微阵列技术推动生物信息学跨入了多基因、全基因组研究的崭新时代,同时也产生了远远超出传统数据分析方法处理能力的海量基因表达数据。设计符合表达数据特性的高效数据分
无线传感器网络是一种集成了传感器技术、微机微电子技术、无线通信技术和分布式处理技术的下一代新兴网络。其在军事、医疗、环境保护等方面的应用也日趋增多,而随之而来的
IT服务管理(ITSM, Information Technology Service Management)是-种以流程为导向、以客户为中心的方法,它通过整合IT服务与组织的业务,提高组织中工T服务的提供能力和服务
随着网络技术的发展,广大读者对数字图书馆的要求越来越高;数字图书馆服务提供方希望用尽可能少个资源提供尽可能丰富、灵活、安全、不间断的服务。基于读者和数字图书馆提供
元建模是构造元模型的过程,用于支持建模语言的开发与演化。元建模工具是辅助这一过程的CASE工具。它不仅用于建立元模型,还应该能够自动生成对应的建模工具代码。目前已有多种