论文部分内容阅读
近几年,随着Web2.0技术的发展,用户在Web上发布了大量的针对产品及服务的评论。从这些评论中挖掘出有价值的知识将有助于产品生产商提高产品质量,也有助于服务提供者改善服务:另一方面,这些知识也可能影响其他潜在消费者的购买和消费行为。本文试图给出基于在线消费者评论的产品及服务质量评估的几个关键技术。这些关键技术应用于两种产品及服务的质量评估方式,分别是: (1)为消费者评论生成用于产品及服务质量评估的标签、特征评分及得到评论的情感类别。这些生成的结果作为普通消费者购买产品或服务的参考。 (2)为产品及服务获得用于质量评估的产品及服务的特征权重,以及为产品及服务自动生成用于质量评估的调查问卷。这些生成的结果主要为了产品或服务的提供商了解消费者对产品或服务的整体评价。 本文的研究对象是在线消费者评论。主要研究贡献是: (1)提出了一种基于情感特征聚类的同域情感分类方法SFCSCA:并提出了一种基于不同训练源的跨域情感分类方法MSAL。SFCSCA把原有训练空间的情感特征通过映射得到新的用于扩展原有训练特征空间的扩展特征。用原有的训练特征通过训练可得到一个情感分类器,利用原有训练特征以及经过映射得到的扩展特征通过训练得到另外一个分类器。利用这两个分类器来得到最终的情感分类器。实验表明,本文提出的SFCSCA方法的情感分类准确度高于基于SVM的方法、基于ASVM(Active SVM)的方法以及基于Co-Training的方法的情感分类方法。本文提出的基于不同训练源的跨域情感分类方法MSAL。是一种利用多个训练源实现的自举式的情感分类方法。在同样数据集合上与当前最新的跨域情感分类方法SCL-MI[1]及SFADI[2]比较的结果显示MSAL。方法得到的准确度超过了SCL-MI,并可以与SFADI方法相媲美。 (2)提出了多种产品及服务特征排序方法,这些方法能被划分为三种类型:基于情感分类的产品及服务特征排序方法、基于图的产品及服务特征排序方法、以及基于消费者评分的产品及服务特征排序方法。这三类方法适合于三类产品及服务特征排序情况,互为补充。在基于情感分类的产品及服务特征的排序方面,本文提出三种方法,分别是基于互信的方法、基于概率的方法以及基于信息增益的方法。本文给出了两种基于图的产品及服务特征排序方法,分别是FORandomWalk以及基于PageRank[3]的方法FORank。本文还提出了基于消费者评分的产品及特征排序的方法DPLR-R。实验结果表明,本文提出的基于互信(MI)的产品及服务特征排序方法、FORandomWalk、以及DPLR-R方法在同样的数据集上的排序精确度相当甚至在一定条件下超过了当前最新方法DP-HITS[4]的结果。 (3)提出了三种基于产品及服务特征排序方法的应用,分别是:为消费者评论自动产生特征评分及标签、基于图的服务质量评估,以及消费者调查问卷的自动生成。本文利用产品及服务排序的方法DPIR-R自动为消费者评论生成标签。实验表明,本文为消费者评论生成的标签效果要比基于TF以及TFIDF方法得到的标签要好。基于图的服务质量评估应用是通过FORank方法得到的服务特征的权重来进行线性服务质量评估。消费者调查问卷的自动生成的应用首先利用回归方法对产品及服务特征排序,然后可以生成两种类型的调查问卷:一种是有观点词选项的调查问卷,另外一种是没有观点词选项的调查问卷。自动生成消费者调查问卷的意义在于可以对大量的不同类型的产品及服务自动生成调查问卷,从而可用来改变传统的产品及服务消费者调查问卷的设计方式并提高了工作效率。