论文部分内容阅读
Internet搜索已经成为Web上最重要的应用之一,人们经常需要到Google、Baidu等搜索引擎去查找想要的信息,对于科研人员更是如此。为了开展研究,他们需要到网上查找相关的文献信息。但是由于Web上的很多文献没有被很好的组织和描述,因此当前的文献搜索引擎很多情况下不能满足科研人员的需求。
为解决上述问题,本文构建了一个高效的Web文献检索导航工具——BestBiblio,并应用聚焦爬虫、文本挖掘等技术实现了相关功能。BestBiblio具有以下功能:(1)为获取所需文档,它自动从DBLP网站下载文献;(2)为了完整准确的描述文档,它采用一种基于挖掘最长序列频繁词组的技术提取文献的关键字;(3)为了将文献与其对应的关键字关联,并且揭示关键字之间的关系,它构建一个辅助的结构一TIGraph;(4)基于TIGraph,它提供了实用的导航来帮助用户进行检索,使得用户可以更加快速的使用模糊查询词或精确查询词得到相关文献。
与相关工作比较证明,BestBiblio可以更加准确的提取关键字。为了满足不同学术水平用户的检索需求,它为用户提供了更加灵活的检索导航,包括:“从模糊查询词得到精确查询词”,“从模糊或精确查询词得到文献”,“从文献中得到关键字”。