论文部分内容阅读
随着Internet的普及,搜索引擎成为人们在网络上获取信息的重要方式。但通用搜索引擎无法针对用户兴趣进行个性化的定制。本文提出了用户兴趣引导下的网页收集和服务方式,在网页收集中根据用户兴趣作为网页评分和URL调度的依据,并将收集到的网页按照用户的不同需求进行分发。
在本文中,作者阐述了如何处理用户兴趣引导下的网页收集中存在的各种问题,包括HTML分析、网页内容分析、网页相关度评分、URL调度等,并提出了解决方案和改进思路。本文的创新点及主要贡献如下:
●针对网上大量不规范的HTML文件,根据W3C的标准,设计并实现了具有容错功能的HTML分析器。
●根据HTML的半结构化特点,提出了用标签合并的方式提取网页正文主体,并在提取出的正文主体部分中定位网页发布时间和网页真实标题。
●提出了一种链接聚类算法,并将其引入Shark-Search算法,以改善网页采集中的URL调度策略。
作者在用户兴趣引导下的网页收集中各种问题研究的基础上,在体育类新闻领域实现了网页收集原型系统,并在本文中提供各个部分的详细设计方案,为进一步的研究提供了实验平台和实验数据。