论文部分内容阅读
面对日益增多的购物网站和商品信息,如何有效快速地搜索到合适而且价格优惠的商品信息,以支持消费者进行选购决策,已成为一个重要的研究课题。购物搜索引擎,将搜索引擎与电子商务相结合,可以很好地解决这个问题。而对电子商务网站中商品信息的精确抽取,是构建购物搜索引擎的基础和关键。 本文通过对购物搜索引擎应用背景下信息源和信息的特点进行分析,针对其应用特点构建了基于Web浏览器的Web信息抽取模型,并深入探索了该模型的关键算法:参照前人利用XPath从XML中定位和抽取数据的思路,提出了一种类XPath路径表达式,并重新设计了Html元素定位算法;定义并设计了一系列字符串处理器,能够对抽取数据进行有效处理,特别是从显示产品价格信息的图片中也可很好地识别出产品价格;提出了基于词典的信息字段抽取,可以有效地处理某些网站信息字段不规则的抽取问题;设计了一种可视化的信息抽取配置辅助工具,用户通过简单的交互即可生成适用于整个电子商务网站同一类产品信息的抽取配置文件。最后,在理论模型研究的基础上,构建了WEB信息抽取实验系统,并进行了可行性和实用性测试。实验结果表明本文提出的抽取模型可以很好地解决抽取领域中JavaScript、Ajax、翻页等难题,在抽取电子商务网站产品信息中具有很好的效果。