用户兴趣引导下的网页收集研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ycboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及,搜索引擎成为人们在网络上获取信息的重要方式。但通用搜索引擎无法针对用户兴趣进行个性化的定制。本文提出了用户兴趣引导下的网页收集和服务方式,在网页收集中根据用户兴趣作为网页评分和URL调度的依据,并将收集到的网页按照用户的不同需求进行分发。 在本文中,作者阐述了如何处理用户兴趣引导下的网页收集中存在的各种问题,包括HTML分析、网页内容分析、网页相关度评分、URL调度等,并提出了解决方案和改进思路。本文的创新点及主要贡献如下: ●针对网上大量不规范的HTML文件,根据W3C的标准,设计并实现了具有容错功能的HTML分析器。 ●根据HTML的半结构化特点,提出了用标签合并的方式提取网页正文主体,并在提取出的正文主体部分中定位网页发布时间和网页真实标题。 ●提出了一种链接聚类算法,并将其引入Shark-Search算法,以改善网页采集中的URL调度策略。 作者在用户兴趣引导下的网页收集中各种问题研究的基础上,在体育类新闻领域实现了网页收集原型系统,并在本文中提供各个部分的详细设计方案,为进一步的研究提供了实验平台和实验数据。
其他文献
嵌入式设备的网络化是人们把控制触角从工作生产向生活延伸的一个必然步骤,它也是当前嵌入式系统研究的热点问题之一。在该技术产生前,人们必须利用专用线路来控制远程设备,而现
贝叶斯网络是概率理论和图论相结合的产物,作为不确定性知识表达和推理的一种方法,已经成为数据库知识发现和决策支持系统的有效方法,并在很多领域都有着广泛的应用。  本文通
随着信息化建设的发展,网络已经成为支撑许多行业开展业务的基础平台,网络安全将直接影响到其业务的正常实施,甚至关系到国家的安全和社会的稳定。在危害网络安全的因素中,恶意软
当前,以Web Services为代表的面向服务计算(SOC)技术正受到产业界和学术界越来越多的关注,其应用也越来越广泛。在面向服务的计算环境中,存在着很多功能相同或相似的服务,为了对
得益于虚拟化技术的成熟发展,虚拟机越来越多的出现在了企业、学校和科研机构当中。相对于物理机来说,虚拟机拥有更好的迁移性、可扩展性和相对低廉的购入成本与维护成本,所以越
火炮多参数智能检测平台是火炮多参数智能检测系统的重要组成部分。本文充分利用数字图像处理技术、模式识别技术、人工神经网络技术、数据融合技术、计算机数据传输与通信技
本文建立了单轴晶体光学物理量计算模型,以及单轴晶体物理光学现象实时计算机图形学计算模型。首先,对自然界中的单轴晶体光学现象进行了研究,分析单轴晶体所有可能出现的视觉效
本文提出了一种新的广义量子粒子模型(GeneralizedQuantumParticleModel,GQPM)用于自组织聚类方法。该模型将数据聚类过程转化为一个在状态构形空间上的随机自组织过程,并由此
本文从成员分类器的生成方法和组合方法两个方面对组合分类在大规模学习问题中的应用进行了分析和研究。选取k-近邻分类器、Fisher分类器、多层感知器、径向基网络、支持向量
随着信息安全技术的发展,很多国家都相继推出了各自国内的信息安全标准,在此基础上,由美、加、英、法、德、荷等国家联合推出的common criteria forinformation techenology sec
学位