论文部分内容阅读
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c撑技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息。