博文网页的自动识别与内容抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户:gongjuntao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自动识别与内容抽取问题,其中博文网页的内容抽取分为博文内容抽取和博文评论抽取。   互联网中存在大量不同类型的网页,如新闻、博客、论坛、购物、个人主页等,即使在博客内部除了博文网页以外,还存在相册网页,好友信息网页,个人资料网页等其他类型的网页,因此首先需要识别出博文所在的网页。博文网页识别属于网页类型分类的研究范畴,针对网页类型分类的特点以及博文网页的特点,本文提出一种基于功能词的网页类型分类算法来实现对博文网页的识别。   博文内容抽取方法分为依赖于视觉信息的博文内容抽取方法和不依赖于视觉信息的博文内容抽取方法。由于博文网页模板的多样性以及搏文网页中评论信息的存在,传统的网页内容抽取方法无法较好的适应于博文内容的抽取。   在依赖于视觉信息的方法中,本文提出结合内容特征与结构特征的博文正文抽取方法和基于感知特征的博文标题抽取方法。由于获取视觉信息比较耗时,因此本文还研究了不依赖于视觉信息的博文内容抽取方法。在不依赖于视觉信息的方法中,本文提出一种基于网页语义分割的结合聚类分析和序列分析的博文内容抽取方法。   博文网页当中的博文评论信息是众多互联网应用的重要信息来源,针对博文网页当中的评论信息,本文提出一种基于树结构的全自动抽取方法。在评论记录抽取中,本文首先通过一种基于层次加权的DOM树编辑距离计算方法来完成评论区域中噪音信息的剔除,然后利用时间戳匹配的方法来完成评论记录边界的识别。在得到评论记录之后,本文使用树对齐算法以及不确定性理论来完成评论记录中评论内容的抽取。   实验结果表明,本文的方法对于博文网页的识别,博文内容的抽取以及博文评论的抽取均可以达到较好的效果。
其他文献
随着电池供电的计算设备的广泛使用,延长电池使用时间的需求越来越明显。同时,随着集群系统耗电成本的增加,降低系统能耗的需求也非常迫切。为了解决这两个问题,出现了很多致
采用人工经验的方法进行电路设计已不能满足较大规模的电路设计要求,而演化算法与可编程逻辑器件相结合产生的演化硬件技术,又为较大规模电路设计开辟了新途径。采用演化算法
随着物流业在商业中的地位越来越重要,对物流方向上的研究也越来越多。无线射频技术(RFID)在物流领域的广泛应用,也促进了它的发展。   物流网中,物流中转站是整个网络中
计划评审技术(PERT,Program Evaluation and Review Technique),是50年代后期发展起来的现代项目管理的重要技术模型之一,它是以网络图为基础的计划模型,即用网络图来表示项
国内外学者已经提出很多聚类方法,这些方法各有优缺点,如K-均值算法简单易行、收敛快速,但是它需要事先给出聚类数目K,这在实际问题中是很难做到的;此外,该算法随机选取初始聚
随着科技的进步,时间序列成为应用最广泛和最常见的数据类型之一,例如在金融、医学和气象学等领域,都会产生大量的时间序列数据。对时间序列数据的研究与分析已经受到了越来
对象跟踪是计算机视觉的一个基本问题,可以应用到视频监控、视频分析、机器人和智能人机交互等很多领域。对象跟踪主要目的是获得运动对象在视频中的轨迹及运动参数,如位置、
脉冲耦合神经网络PCNN(Pulse Coupled Neural Network)是一种有着严格生物学背景的且不同于传统人工神经网络的第三代人工神经网络。与传统的人工神经网络相比,PCNN具有阈值
Web服务具有高度的互操作性、跨平台性和松耦合性等特点,使得Web服务在互联网上得到了广泛应用。然而随着研究的不断深入,单个Web服务已经不能满足用户的实际需要。组合Web服
遥感技术作为当今获取地物表面信息的重要手段,自20世纪60年代迅速发展至今,已被运用于环境监测、资源勘查、地质勘测、农业监控、军事侦察等诸多领域。由于该技术涉及众多科