基于Web内容的一种数据自动抽取方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：tonzhofpcb

【摘要】

：

Web的迅速发展，使其日益成为人们查找有用数据的重要来源，但是Web站点主题各异、形式多样、结构不同，其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp．Net技术

【作者】

：

朱永生王军

【机构】

：

南京信息工程大学网络信息中心

【出处】

：

计算机技术与发展

【发表日期】

：

2012年5期

【关键词】

：

Web抽取 HTML 锚变换 ASP.NET web extraction html anchor transform Asp. Net

【基金项目】

：

江苏省公益性行业科研专项（GYHY201106037）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web的迅速发展，使其日益成为人们查找有用数据的重要来源，但是Web站点主题各异、形式多样、结构不同，其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp．Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容，然后根据约定规则生成网页描述文件，分析html文档，设定目标锚，最后利用正则表达式和c撑技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息。

其他文献

仿真家庭服务机器人行动序列规划研究

随着社会的进步和科技的发展，服务机器人目益受到人们的关注。服务机器人在复杂的家庭环境中如何做到自主决策以便更好的辅助人类生活，将是一个研究热点。回答集程序是一种具有

期刊

家庭服务机器人自主决策回答集程序非单调推理行动序列home service robot autonomous decision-making an

基于PCI Express总线的模幂运算器的实现

PCI Express 协议由于其高速串行、系统拓扑简单等特点被广泛用于各种领域。研究支持PCI Express总线的数据加密设备，可以解决当前加密设备与主机之间数据传输速率低的问题，提

期刊

PCIEXPRESS直接内存访问模幂MONTGOMERY模乘先进先出PCI Express DMA modular exponentiatio

基于Web内容的一种数据自动抽取方法

其他学术论文