一个基于领域本体的视频网页信息抽取器的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:QQ0301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着视频服务网站以及搜索引擎的蓬勃发展,对互联网上的视频信息进行数据集成已经成为互联网应用的迫切需求,而互联网视频信息的抽取是该领域的关键技术之一。互联网视频信息包括视频内容和视频描述信息,鉴于效率问题,网络视频信息提取以及网络视频监管主要考虑视频描述信息。   本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,常用于将某个或多个特定领域的概念和术语规范化,在如何组织、管理和维护海量信息并为用户提供有效的服务方面,本体已经得到了广泛的应用。   本文针对现有视频网页信息抽取过程的问题,设计并实现一个基于领域本体的视频网页信息抽取器。对视频网页领域本体搭建、领域本体实例添加、抽取模板生成以及抽取模板维护等关键性问题进行了研究。针对搜索引擎爬取的真实视频网页进行测试,利用模板从网页中抽取信息,并讨论了该方法适用的领域。实验证明,该信息抽取器的抽取结果具有较高的正确率,能够代替对站点进行人工标记进行信息抽取的方法,能够支持知识的更新与维护。该方法也使得领域本体中概念的层次关系和属性的特点得到了充分利用,本体的构造在抽取过程中也逐渐得到完善,从而增强本体对应用领域的描述能力。
其他文献
软件的复杂性一方面体现在自身规模的庞大和内部控制结构的多变;另一方面,随着万维网的普及和Internet技术的不断发展,以用户为中心、面向服务的网构化软件在应用环境上为软件
网络技术的飞速发展加速产生了大量重要数据,对这些数据的存储和保护需求已达到PB级别。尽管数据成指数级别增长,但研究表明,冗余数据大量存在于信息处理和存储的各个环节,如内容
随着信息技术的不断发展,安全越来越受得人们的关注。密码学的主要任务就是在不安全的环境下确保安全的通信,而密钥交换协议是一个重要的密码学原语,可以让两方或者多方在不
在互联网领域,对等网络模式(Peer to Peer,简称P2P)作为客户/服务器模式(Client/Server,简称C/S)结构模式的发展和对立面而出现,解决了传统C/S网络模式中服务器请求瓶颈等问题。
无线传感器网络(WSN)作为新兴的网络测控技术,是能够自主实现数据采集、融合和传输应用的智能网络应用系统。无线传感器网络使逻辑上的信息世界与真实的物理世界紧密结合,从
随着网络流媒体技术的发展,其应用也越来越广泛,特别是在流媒体点播和直播技术方面,各种各样的流媒体点播、直播系统也相继推出,受到了广大网民的追捧。比如现在的优酷网、土
众所周知,数据是企业信息化的源头。对于油田企业来说,石油勘探和开发数据是它们寻找、评价以及开发油气田极为重要的数据资源。如何科学有效地管理这些数据成为油田企业信息化
可靠完备的数据是ITS研究实践的重要前提,一直制约着交通分析方法的发展与实际应用。目前,我国高速公路根据通行里程对过路车辆收取相应费用,产生了海量的车辆收费记录。收费
在过去的十几年里,无线通信发生了翻天覆地的变化。移动性强、通信方便等特点使无线网络得到了广泛的应用,并且便携式设备也日益被广泛使用。随着硬件设备技术的提高和成本的降
基于我国航天技术的发展,迫切需要能够自适应太空复杂环境的硬件,包括天线。然而,传统的天线设计方法,需要丰富的设计经验、繁杂的验证方法和多种辅助测试工具,才能解决天线