基于Web内容的一种数据自动抽取方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:tonzhofpcb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c撑技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息。
其他文献
随着社会的进步和科技的发展,服务机器人目益受到人们的关注。服务机器人在复杂的家庭环境中如何做到自主决策以便更好的辅助人类生活,将是一个研究热点。回答集程序是一种具有
PCI Express 协议由于其高速串行、系统拓扑简单等特点被广泛用于各种领域。研究支持PCI Express总线的数据加密设备,可以解决当前加密设备与主机之间数据传输速率低的问题,提