论文部分内容阅读
随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自动识别与内容抽取问题,其中博文网页的内容抽取分为博文内容抽取和博文评论抽取。
互联网中存在大量不同类型的网页,如新闻、博客、论坛、购物、个人主页等,即使在博客内部除了博文网页以外,还存在相册网页,好友信息网页,个人资料网页等其他类型的网页,因此首先需要识别出博文所在的网页。博文网页识别属于网页类型分类的研究范畴,针对网页类型分类的特点以及博文网页的特点,本文提出一种基于功能词的网页类型分类算法来实现对博文网页的识别。
博文内容抽取方法分为依赖于视觉信息的博文内容抽取方法和不依赖于视觉信息的博文内容抽取方法。由于博文网页模板的多样性以及搏文网页中评论信息的存在,传统的网页内容抽取方法无法较好的适应于博文内容的抽取。
在依赖于视觉信息的方法中,本文提出结合内容特征与结构特征的博文正文抽取方法和基于感知特征的博文标题抽取方法。由于获取视觉信息比较耗时,因此本文还研究了不依赖于视觉信息的博文内容抽取方法。在不依赖于视觉信息的方法中,本文提出一种基于网页语义分割的结合聚类分析和序列分析的博文内容抽取方法。
博文网页当中的博文评论信息是众多互联网应用的重要信息来源,针对博文网页当中的评论信息,本文提出一种基于树结构的全自动抽取方法。在评论记录抽取中,本文首先通过一种基于层次加权的DOM树编辑距离计算方法来完成评论区域中噪音信息的剔除,然后利用时间戳匹配的方法来完成评论记录边界的识别。在得到评论记录之后,本文使用树对齐算法以及不确定性理论来完成评论记录中评论内容的抽取。
实验结果表明,本文的方法对于博文网页的识别,博文内容的抽取以及博文评论的抽取均可以达到较好的效果。