面向购物搜索引擎的Web信息抽取模型研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:wei2006006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对日益增多的购物网站和商品信息,如何有效快速地搜索到合适而且价格优惠的商品信息,以支持消费者进行选购决策,已成为一个重要的研究课题。购物搜索引擎,将搜索引擎与电子商务相结合,可以很好地解决这个问题。而对电子商务网站中商品信息的精确抽取,是构建购物搜索引擎的基础和关键。  本文通过对购物搜索引擎应用背景下信息源和信息的特点进行分析,针对其应用特点构建了基于Web浏览器的Web信息抽取模型,并深入探索了该模型的关键算法:参照前人利用XPath从XML中定位和抽取数据的思路,提出了一种类XPath路径表达式,并重新设计了Html元素定位算法;定义并设计了一系列字符串处理器,能够对抽取数据进行有效处理,特别是从显示产品价格信息的图片中也可很好地识别出产品价格;提出了基于词典的信息字段抽取,可以有效地处理某些网站信息字段不规则的抽取问题;设计了一种可视化的信息抽取配置辅助工具,用户通过简单的交互即可生成适用于整个电子商务网站同一类产品信息的抽取配置文件。最后,在理论模型研究的基础上,构建了WEB信息抽取实验系统,并进行了可行性和实用性测试。实验结果表明本文提出的抽取模型可以很好地解决抽取领域中JavaScript、Ajax、翻页等难题,在抽取电子商务网站产品信息中具有很好的效果。
其他文献
信息技术是当今世界经济和社会发展的重要驱动力,信息产业已经成为了各国国民经济新的增长点,其发展的情况关系到一个国家在世界经济中的地位。在我国,信息产业也已成为了全面建
提出时间约束的协商模型。由双边协商的需要首先将多属性归为两个协商区间进行研究,并提出基于时间约束的协商决策函数,以此建立时间约束下的多属性出价策略。注意到多卖方间
在我国出版行业的发展长期滞后,出版行业的状况相对落后世界发达国家。近年来,国家为了促进出版行业的发展,提出该行业改革的完成目标及时间。对此我国出版业的转型只有适应市场
首先,分析信息构建之概念的不同观点,并在此基础上提出建构者与用户耦合的信息构建的定义;在此定义基础上,提出一个基于建构者与用户耦合的信息构建模型;再次,对耦合过程进行
又是午睡rn说起午睡,哎呀老师就头疼.还记得一年级午睡课上哎呀老师和小屁孩打地鼠的事吗?当然,那不就是戴一副墨镜吗?rn九月的午睡,又来了,到了二年级的小屁孩长心眼了,哎呀
期刊
发展战略性新兴产业是国家推动产业结构升级、促进经济可持续发展、提升国家竞争力的重要战略规划。战略性新兴产业的发展壮大不仅需要资金、技术、市场、政策的支持,而且也离
随着经济的飞速发展,企业面临日益激烈的市场竞争,企业档案管理工作在企业发展中的战略地位越来越重要。近年来,诸多企业经过不断的改革探索,对以知识服务为导向的企业档案管理模
图书馆是学校的文献中心和信息枢纽,是办学的基础条件之一。独立学院近年来发展迅速,其在我国高等教育体制改革中的作用日益彰显。学者们开始更多地关注这一类型图书馆的发展研
依据T型关联度的分析思路设计科技资源投入与经济增长的T型关联度分析模型,对2001-2008年间安徽省科技资源投入与经济增长的关联度进行研究.结果表明:科技活动人员、科学家与
社会网络环境下,随着信息技术、网络技术的迅速发展,教育信息化越来越得到大家认可并得以大范围的应用推广。教育信息化的发展离不开丰富的数字教学资源的支持。虽然,当前各类以