博文网页的自动识别与内容抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户：gongjuntao

【摘要】

：

随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自

【作者】

：

严华梁

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

博文网页自动识别视觉信息网页类型分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自动识别与内容抽取问题,其中博文网页的内容抽取分为博文内容抽取和博文评论抽取。　　互联网中存在大量不同类型的网页,如新闻、博客、论坛、购物、个人主页等,即使在博客内部除了博文网页以外,还存在相册网页,好友信息网页,个人资料网页等其他类型的网页,因此首先需要识别出博文所在的网页。博文网页识别属于网页类型分类的研究范畴,针对网页类型分类的特点以及博文网页的特点,本文提出一种基于功能词的网页类型分类算法来实现对博文网页的识别。　　博文内容抽取方法分为依赖于视觉信息的博文内容抽取方法和不依赖于视觉信息的博文内容抽取方法。由于博文网页模板的多样性以及搏文网页中评论信息的存在,传统的网页内容抽取方法无法较好的适应于博文内容的抽取。　　在依赖于视觉信息的方法中,本文提出结合内容特征与结构特征的博文正文抽取方法和基于感知特征的博文标题抽取方法。由于获取视觉信息比较耗时,因此本文还研究了不依赖于视觉信息的博文内容抽取方法。在不依赖于视觉信息的方法中,本文提出一种基于网页语义分割的结合聚类分析和序列分析的博文内容抽取方法。　　博文网页当中的博文评论信息是众多互联网应用的重要信息来源,针对博文网页当中的评论信息,本文提出一种基于树结构的全自动抽取方法。在评论记录抽取中,本文首先通过一种基于层次加权的DOM树编辑距离计算方法来完成评论区域中噪音信息的剔除,然后利用时间戳匹配的方法来完成评论记录边界的识别。在得到评论记录之后,本文使用树对齐算法以及不确定性理论来完成评论记录中评论内容的抽取。　　实验结果表明,本文的方法对于博文网页的识别,博文内容的抽取以及博文评论的抽取均可以达到较好的效果。

其他文献

一种Profiling驱动的低能耗编译方法的设计与实现

随着电池供电的计算设备的广泛使用,延长电池使用时间的需求越来越明显。同时,随着集群系统耗电成本的增加,降低系统能耗的需求也非常迫切。为了解决这两个问题,出现了很多致

学位

性能计数器低能耗编译集群系统程序性能

基于改进演化策略的组合数字电路设计

采用人工经验的方法进行电路设计已不能满足较大规模的电路设计要求,而演化算法与可编程逻辑器件相结合产生的演化硬件技术,又为较大规模电路设计开辟了新途径。采用演化算法

学位

数字电路设计改进演化策略现场可编程逻辑门阵列适应度评估

基于RFID的物流网络关键节点挖掘的研究与实现

随着物流业在商业中的地位越来越重要,对物流方向上的研究也越来越多。无线射频技术(RFID)在物流领域的广泛应用,也促进了它的发展。　　物流网中,物流中转站是整个网络中

学位

物流网络关键节点挖掘贝叶斯网漏读数据填补射频识别

小生境遗传算法在PERT上的应用与研究

计划评审技术(PERT,Program Evaluation and Review Technique),是50年代后期发展起来的现代项目管理的重要技术模型之一,它是以网络图为基础的计划模型,即用网络图来表示项

学位

网络计划优化小生境技术资源均衡优化费用优化综合优化遗传算法计划评审

基于遗传算法的典型聚类方法研究

国内外学者已经提出很多聚类方法,这些方法各有优缺点,如K-均值算法简单易行、收敛快速,但是它需要事先给出聚类数目K,这在实际问题中是很难做到的；此外,该算法随机选取初始聚

学位

遗传算法数据挖掘遗传聚类

面向时间序列的阈值近似压缩处理技术

随着科技的进步,时间序列成为应用最广泛和最常见的数据类型之一,例如在金融、医学和气象学等领域,都会产生大量的时间序列数据。对时间序列数据的研究与分析已经受到了越来

学位

时间序列阈值滑动窗口相似子序列数据压缩

基于在线学习的多特征对象跟踪技术研究

对象跟踪是计算机视觉的一个基本问题,可以应用到视频监控、视频分析、机器人和智能人机交互等很多领域。对象跟踪主要目的是获得运动对象在视频中的轨迹及运动参数,如位置、

学位

对象跟踪动态多特征融合检测关联在线多实例学习半监督学习

脉冲耦合神经网络在图像分割与图像检索中的应用研究

脉冲耦合神经网络PCNN(Pulse Coupled Neural Network)是一种有着严格生物学背景的且不同于传统人工神经网络的第三代人工神经网络。与传统的人工神经网络相比,PCNN具有阈值

学位

脉冲耦合神经网络图像分割图像检索各向异性扩散遗传算法熵序列

基于协作过滤的组合服务备选集生成方法

Web服务具有高度的互操作性、跨平台性和松耦合性等特点,使得Web服务在互联网上得到了广泛应用。然而随着研究的不断深入,单个Web服务已经不能满足用户的实际需要。组合Web服

学位

Web服务组合备选集生成方法协作过滤QoS预测模式匹配

基于遗传算法的铀矿区高光谱遥感数据分类研究

遥感技术作为当今获取地物表面信息的重要手段,自20世纪60年代迅速发展至今,已被运用于环境监测、资源勘查、地质勘测、农业监控、军事侦察等诸多领域。由于该技术涉及众多科

学位

铀矿高光谱遥感遗传算法特征选择数据分类遥感技术

博文网页的自动识别与内容抽取

其他学术论文