论文部分内容阅读
摘要:通过对目前通用的搜索引擎是否适合用于产品评论信息的搜索的讨论和对目前网络产品评论数据处理的需求分析,探究产品评论检索系统的系统结构和工作流程。
关键词:产品评论检索;极性分类;网络爬虫
中图分类号:F045.1 文献标识码:A 文章编号:1001-828X(2011)07-0251-01
一、引言
随着信息技术的不断发展和深化,网络基础设施的不断完善,如今互联网已经渗透到社会生活的方方面面,成为大部分人日常生活不可缺少的重要交流工具和信息来源。互联网技术的普及大大缩短了人与人之间的距离,各种各样的新兴应用、新技术随着新需要应运而生,推动了互联网技术本身日新月异地向前发展,其中典型的应用有电子商务、即时通讯、网络社区、博客等。产品评论信息是随着电子商务、网络社区等的发展出现的,通常是由消费者作出的对某一产品的外观、质量、性能、价格等商品属性好坏情况的判断,随着互联网应用参与的日益广泛,产品评论信息越来越多地出现在博客、社区或购物网站上。
产品评论检索系统的目标是为用户提供指定产品的评论,并将评论按照不同的评论对象(如产品属性、部分等)以及倾向性(褒义、贬义等)分类汇总,使用户可以方便、迅速地获取目标产品的有关评论的概貌与细节。
目前通用的搜索引擎不适合用于产品评论信息的搜索,原因是:1.通用的搜索引擎根据用户提供的关键字按照相关性对网络文档进行排序,而产品评论信息难以通过统一的关键字来表达;2.通用的搜索引擎返回的结果以文档为单位,包含大量的非评论信息,需要人工进一步甄别;3.对于返回的评论信息,目前的搜索引擎不能按照评论对象和极性分类汇总,在实用性上大打折扣。
二、系统结构
产品评论检索系统由网页收集模块、文档库管理模块、属性获取模块、评价词获取模块、评论检索模块、评论分析模块、极性分类模块、用户界面模块等组成。系统结构如图1所示。
网页收集模块负责产品评论网页的收集、下载和保存,其核心模块是网络爬虫。互联网上的页面可以分为新闻、小说、广告、评论等各种不同的类型,为了提高系统的效率、减少系统处理时间,目前网络爬虫只限于对特定网站页面的收集,因此文档库中页面的主要来源是中关村在线、网易数码频道、新浪数码频道、太平洋数码世界等网站。网页收集模块将这些页面下载后保存到文档库中。
文档库管理模块负责文档的整理、句群划分、编号、索引等。对文档的整理包括分词、去停词等预处理,将文档的原始版本与预处理版本同时保存在文档库中;将文档按照句意以及连贯性划分为句群、并对句群、文档进行编号、索引,保存到句群库中。属性获取模块负责根据给定的产品名称在文档库中获取该产品的组成部分或属性,为检索和评价单元分析提供支持信息。评价词获取模块负责搜集具有极性的评价词,为评价语的极性判断提供依据。评论检索模块负责由用户给定的产品名称或型号,首先进行属性扩展,然后在句群库中按照评论因素相关性排序,返回相关度超过阈值的句群集。评论分析模块负责将检索模块返回的句群集中句子包含的评论对象和评价语提取出来,并按照评论对象、评价语、句群编号的格式保存到库中。极性分类模块负责将评价语按照褒义、贬义类型进行分类。用户界面模块负责用户检索关键词的输入,并将分类后的检索结果表格按照汇总及分类结构以网页方式呈现给用户。
三、工作流程
产品评论检索系统首先使用网络爬虫在指定网站上抓取页面,对页面的边条以及图片等进行过滤,通过分词、去停词等处理步骤后,建立基础文档库,然后以文档为基础进行句群划分、编号、索引等处理后建立句群库。
当用户通过向输入界面提供关键词发出检索请求后,系统首先根据关键词在产品属性表中查询,检查是否有该关键词的属性集记录存在,如果存在对应的属性集,则将该属性集提供给评论检索模块,否则通过属性获取模块在文档库中获取该关键词对应的所属部分或属性,完成后将结果集提供给评论检索模块,并将其属性集按属性编号、属性、所属产品名称及型号的格式保存到库中。评论检索模块根据关键词、属性集以及评价词等因素计算句群的相关性权值,依照权值对句群排序后,选择权值大于阈值的句群作为返回结果集。在返回的结果集中,评论分析模块以词语结合关系知识库为基础,采用序列标注算法标注句子中的评论对象和评价语,并将标注结果按句群编号、句子编号、评论对象、评价语、极性的格式保存到库中。极性分类模块对评论对象的评价语按照褒义、贬义分类,最后由用户界面模块将产品评论按照评论对象以及评价语极性分类汇总后,以网页方式提供给用户,每条评论都有所属句子、句群以及文档编号,通过超链接,用户可以查看评论的在原始文档中详细情况。
四、总结
总之,對产品评论检索系统的研究具有很重要的理论意义和实践意义,值得进一步深入探讨。本文在介绍产品评论检索系统的系统结构的基础上,详细介绍了该系统产品评论检索系统的工作流程,并做了一些分析,但在具体采用具体的算法和功能实现等方面还需要做进一步的工作。
关键词:产品评论检索;极性分类;网络爬虫
中图分类号:F045.1 文献标识码:A 文章编号:1001-828X(2011)07-0251-01
一、引言
随着信息技术的不断发展和深化,网络基础设施的不断完善,如今互联网已经渗透到社会生活的方方面面,成为大部分人日常生活不可缺少的重要交流工具和信息来源。互联网技术的普及大大缩短了人与人之间的距离,各种各样的新兴应用、新技术随着新需要应运而生,推动了互联网技术本身日新月异地向前发展,其中典型的应用有电子商务、即时通讯、网络社区、博客等。产品评论信息是随着电子商务、网络社区等的发展出现的,通常是由消费者作出的对某一产品的外观、质量、性能、价格等商品属性好坏情况的判断,随着互联网应用参与的日益广泛,产品评论信息越来越多地出现在博客、社区或购物网站上。
产品评论检索系统的目标是为用户提供指定产品的评论,并将评论按照不同的评论对象(如产品属性、部分等)以及倾向性(褒义、贬义等)分类汇总,使用户可以方便、迅速地获取目标产品的有关评论的概貌与细节。
目前通用的搜索引擎不适合用于产品评论信息的搜索,原因是:1.通用的搜索引擎根据用户提供的关键字按照相关性对网络文档进行排序,而产品评论信息难以通过统一的关键字来表达;2.通用的搜索引擎返回的结果以文档为单位,包含大量的非评论信息,需要人工进一步甄别;3.对于返回的评论信息,目前的搜索引擎不能按照评论对象和极性分类汇总,在实用性上大打折扣。
二、系统结构
产品评论检索系统由网页收集模块、文档库管理模块、属性获取模块、评价词获取模块、评论检索模块、评论分析模块、极性分类模块、用户界面模块等组成。系统结构如图1所示。
网页收集模块负责产品评论网页的收集、下载和保存,其核心模块是网络爬虫。互联网上的页面可以分为新闻、小说、广告、评论等各种不同的类型,为了提高系统的效率、减少系统处理时间,目前网络爬虫只限于对特定网站页面的收集,因此文档库中页面的主要来源是中关村在线、网易数码频道、新浪数码频道、太平洋数码世界等网站。网页收集模块将这些页面下载后保存到文档库中。
文档库管理模块负责文档的整理、句群划分、编号、索引等。对文档的整理包括分词、去停词等预处理,将文档的原始版本与预处理版本同时保存在文档库中;将文档按照句意以及连贯性划分为句群、并对句群、文档进行编号、索引,保存到句群库中。属性获取模块负责根据给定的产品名称在文档库中获取该产品的组成部分或属性,为检索和评价单元分析提供支持信息。评价词获取模块负责搜集具有极性的评价词,为评价语的极性判断提供依据。评论检索模块负责由用户给定的产品名称或型号,首先进行属性扩展,然后在句群库中按照评论因素相关性排序,返回相关度超过阈值的句群集。评论分析模块负责将检索模块返回的句群集中句子包含的评论对象和评价语提取出来,并按照评论对象、评价语、句群编号的格式保存到库中。极性分类模块负责将评价语按照褒义、贬义类型进行分类。用户界面模块负责用户检索关键词的输入,并将分类后的检索结果表格按照汇总及分类结构以网页方式呈现给用户。
三、工作流程
产品评论检索系统首先使用网络爬虫在指定网站上抓取页面,对页面的边条以及图片等进行过滤,通过分词、去停词等处理步骤后,建立基础文档库,然后以文档为基础进行句群划分、编号、索引等处理后建立句群库。
当用户通过向输入界面提供关键词发出检索请求后,系统首先根据关键词在产品属性表中查询,检查是否有该关键词的属性集记录存在,如果存在对应的属性集,则将该属性集提供给评论检索模块,否则通过属性获取模块在文档库中获取该关键词对应的所属部分或属性,完成后将结果集提供给评论检索模块,并将其属性集按属性编号、属性、所属产品名称及型号的格式保存到库中。评论检索模块根据关键词、属性集以及评价词等因素计算句群的相关性权值,依照权值对句群排序后,选择权值大于阈值的句群作为返回结果集。在返回的结果集中,评论分析模块以词语结合关系知识库为基础,采用序列标注算法标注句子中的评论对象和评价语,并将标注结果按句群编号、句子编号、评论对象、评价语、极性的格式保存到库中。极性分类模块对评论对象的评价语按照褒义、贬义分类,最后由用户界面模块将产品评论按照评论对象以及评价语极性分类汇总后,以网页方式提供给用户,每条评论都有所属句子、句群以及文档编号,通过超链接,用户可以查看评论的在原始文档中详细情况。
四、总结
总之,對产品评论检索系统的研究具有很重要的理论意义和实践意义,值得进一步深入探讨。本文在介绍产品评论检索系统的系统结构的基础上,详细介绍了该系统产品评论检索系统的工作流程,并做了一些分析,但在具体采用具体的算法和功能实现等方面还需要做进一步的工作。