论文部分内容阅读
众所周知,互联网现已成为目前最大的信息资源平台,它已经成为信息工作人员搜集公开信息的一个重要途径。不同领域的信息工作者所关注的主题不同,他们需要每日固定跟踪一些主题网站来获取有效信息,主题网站就是指主题比较明确集中的网站。但是网络世界变化快,网络中每天都可能有新的网站建立起来,或者信息工作者以前没有发现的网站,如果他们不去发现这些与自身研究主题相关的新网站的话,可能会造成错失重要情报的后果。因此信息工作者不能局限于固定跟踪的几个网站,他们需要不断发现新主题网站信息源并对其进行跟踪。如何才能发现新的主题网站,如果仅靠人工发现的话,由于互联网的海量信息,人工搜索的工作量大且效率不高。因此我们提出交给计算机来自动帮助我们发现这些相关主题网站。本文在研究一系列相关理论包括关键词提取理论、信息采集理论以及相似度计算理论的基础上,改进了关键词提取算法,提出了网站主题描述模型以及网站相似度计算,并且设计了一套计算机自动发现主题网站的解决方案:从用户已经关注的网站称为“样本网站”出发,从样本网站中提取出主题信息,设计主题描述模型来量化描述这些主题信息,利用主题描述模型的关键词组合进行网页信息的搜索,从搜索到大量网页中提取主题相关的网站,并且与样本网站进行相似度计算,将相似度高的网站判定为主题相关网站,推荐给用户选择是否作为关注网站,从而实现主题网站的自动发现以及判定。最后本文针对这套方案的关键部分进行了实验:关键词提取实验证明改进的TF-IDF算法在关键词提取方面优于传统算法;主题网站发现效果实验和相似度计算实验表明本方案在主题网站发现上是有较为合理的效果的。