基于在线消费者评论的观点挖掘研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:chen1052333209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着Web2.0技术的发展,用户在Web上发布了大量的针对产品及服务的评论。从这些评论中挖掘出有价值的知识将有助于产品生产商提高产品质量,也有助于服务提供者改善服务:另一方面,这些知识也可能影响其他潜在消费者的购买和消费行为。本文试图给出基于在线消费者评论的产品及服务质量评估的几个关键技术。这些关键技术应用于两种产品及服务的质量评估方式,分别是:  (1)为消费者评论生成用于产品及服务质量评估的标签、特征评分及得到评论的情感类别。这些生成的结果作为普通消费者购买产品或服务的参考。  (2)为产品及服务获得用于质量评估的产品及服务的特征权重,以及为产品及服务自动生成用于质量评估的调查问卷。这些生成的结果主要为了产品或服务的提供商了解消费者对产品或服务的整体评价。  本文的研究对象是在线消费者评论。主要研究贡献是:  (1)提出了一种基于情感特征聚类的同域情感分类方法SFCSCA:并提出了一种基于不同训练源的跨域情感分类方法MSAL。SFCSCA把原有训练空间的情感特征通过映射得到新的用于扩展原有训练特征空间的扩展特征。用原有的训练特征通过训练可得到一个情感分类器,利用原有训练特征以及经过映射得到的扩展特征通过训练得到另外一个分类器。利用这两个分类器来得到最终的情感分类器。实验表明,本文提出的SFCSCA方法的情感分类准确度高于基于SVM的方法、基于ASVM(Active SVM)的方法以及基于Co-Training的方法的情感分类方法。本文提出的基于不同训练源的跨域情感分类方法MSAL。是一种利用多个训练源实现的自举式的情感分类方法。在同样数据集合上与当前最新的跨域情感分类方法SCL-MI[1]及SFADI[2]比较的结果显示MSAL。方法得到的准确度超过了SCL-MI,并可以与SFADI方法相媲美。  (2)提出了多种产品及服务特征排序方法,这些方法能被划分为三种类型:基于情感分类的产品及服务特征排序方法、基于图的产品及服务特征排序方法、以及基于消费者评分的产品及服务特征排序方法。这三类方法适合于三类产品及服务特征排序情况,互为补充。在基于情感分类的产品及服务特征的排序方面,本文提出三种方法,分别是基于互信的方法、基于概率的方法以及基于信息增益的方法。本文给出了两种基于图的产品及服务特征排序方法,分别是FORandomWalk以及基于PageRank[3]的方法FORank。本文还提出了基于消费者评分的产品及特征排序的方法DPLR-R。实验结果表明,本文提出的基于互信(MI)的产品及服务特征排序方法、FORandomWalk、以及DPLR-R方法在同样的数据集上的排序精确度相当甚至在一定条件下超过了当前最新方法DP-HITS[4]的结果。  (3)提出了三种基于产品及服务特征排序方法的应用,分别是:为消费者评论自动产生特征评分及标签、基于图的服务质量评估,以及消费者调查问卷的自动生成。本文利用产品及服务排序的方法DPIR-R自动为消费者评论生成标签。实验表明,本文为消费者评论生成的标签效果要比基于TF以及TFIDF方法得到的标签要好。基于图的服务质量评估应用是通过FORank方法得到的服务特征的权重来进行线性服务质量评估。消费者调查问卷的自动生成的应用首先利用回归方法对产品及服务特征排序,然后可以生成两种类型的调查问卷:一种是有观点词选项的调查问卷,另外一种是没有观点词选项的调查问卷。自动生成消费者调查问卷的意义在于可以对大量的不同类型的产品及服务自动生成调查问卷,从而可用来改变传统的产品及服务消费者调查问卷的设计方式并提高了工作效率。
其他文献
伴随无线网络技术的迅速发展,移动终端的普及,随时随地的上网成为现实。然而无线网络受传输媒介限制,它的带宽和时延都无法满足用户的需求。尽管很多移动终端上有多个网络接口,但
随着世界信息化的飞速发展,网络中总数据量呈现出爆炸式的增长。同时,随着科技的不断发展,多数据终端时代也在加速到来的脚步。所有的这些现状,都使得软件研发面临严峻的考验
当前针对中文倾向性分析多照搬英文倾向性分析中的方法;这些方法虽然也取得了一定的效果,但由于它们普遍没有考虑中文的特殊性所以效果提高有限。我们通过对中文句子语义结构进
随着移动互联网尤其是3G网络技术的发展,不良数据信息的扩散也更加迅速。移动设备上对于不良图像过滤提出了新的要求,考虑到移动设备相较于PC之类的传统设备在计算能力上会有一
随着电信和计算机行业的高速发展,电信行业“信息高速公路”的3G时代已经来临,富媒体环境也悄然而至。在富媒体环境下,运营商向综合信息服务提供商转型。   内容管理系统
本文主要研究基于z/OS平台的海量实时交易系统的仿真,并对其进行DB2性能优化的研究。我们将设计开发一个基于z/OS平台的交易系统,生成高仿真的海量数据,利用TPNS进行大规模并
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,同时,企业界也在这一领域做了大量的工作。目
近年来,我国的自然保护区事业有了很大的发展,随着自然保护区信息量的增加,需要对自然保护区数据进行管理和维护。自然保护区在改善环境和保持生态平衡等方面发挥重要作用,是
随着通信业的不断发展,多样的业务纷繁出现,各运营商的用户对于通信所带来的价值要求也不仅仅局限于通话,短信业务早已成为电信收入的重要来源,被用户广泛使用,并且在人们的日常生
近年来,随着虚拟现实技术、计算机网络技术以及计算机图形技术的发展,人们提出了新的军事发展思路——建立虚拟战场来进行军事演练。作为新型的军事演习载体,虚拟战场具有直