论文部分内容阅读
近年来电子商务发展迅猛,顾客在购买产品之后针对产品的主观性评论也与日俱增。这些网络评论信息表达了人们的各种情感色彩及情感倾向性,包含着非常重要的价值。客户购买商品前,经常通过之前用户的产品评论来了解该产品的质量和服务,根据所获取的信息再决定是否购买。同样,这些评论信息对商家也有着重要的意义,他们可以通过评论获取客户的反馈,从而了解产品在哪些方面受到青睐和好评,而在哪些方面应该努力改进,从而实现自身商业利益的最大化。针对网上大量的评论文本,如果仅通过人工方式来分析处理显然是不现实的,需要通过计算机快速获取和处理这些具有主观情感色彩的评价信息,情感分析技术应运而生。情感分析技术包含了许多方面的任务,评价对象抽取就是其中非常重要的任务之一。评价对象抽取的研究主要包括基于规则/模板的方法和基于统计的方法。基于规则/模板的方法需要领域专家定义相应领域的评价对象和规则,无法满足不断出现的新词,不具有跨领域性,可移植性差,同时也不能将评价对象进行聚类。LDA主题模型是一种无监督统计模型,不仅能克服上述方法的缺点,也无需大量的人工标记,得到了研究者的广泛关注。但LDA主题模型在应用时忽略了词的位置信息和语言结构信息,并不适合评价对象抽取的研究,因此需要对其进行扩展,以达到抽取目的。在LDA的扩展模型中,虽然有很多能识别出评价对象,但无法将评价对象和评价词分开,而Zhao等提出的MaxEnt-LDA模型在LDA中引入最大熵,通过最大熵模型来加入相应的语言特征以弥补标准LDA的缺陷,并能识别出评价对象,同时能将评价对象和评价词分开。但MaxEnt-LDA模型只考虑了词法特征,忽略了句法特征,而最大熵部分也存在一些不足。针对上述问题,本文提出了基于主题-条件随机场的CLDA模型,进行评价对象的抽取。首先在LDA模型中引入条件随机场,来区分评价对象,评价词和背景词;然后,通过加入指示变量,对评价对象,评价词和背景词进行全局和局部的区分,之所以要将词进行全局和局部的区分,是因为顾客在对产品进行评价时,有些用词使用比较频繁,容易将其他的评价对象或评价词淹没,所以使用全局和局部来区分出频繁用词和非频繁用词。通过CLDA模型不仅能够达到抽取评价对象的研究目的,而且能够将评价对象和评价词进行分离。为验证CLDA模型的有效性,实验中使用Restaurant领域的评论数据集,进行定性分析和定量分析,在定量分析中,与MaxEnt-LDA模型进行对比,实验结果表明CLDA模型在评价对象抽取方面,有着更好的性能。实验中还重点讨论了条件随机场模型中的特征选择问题,通过实验验证了选用词特征,词性特征和依存句法特征的有效性。最后由于主题模型在中文评价对象抽取方面的研究较少,所以本文将CLDA模型用于中文的评价对象抽取,实验证明CLDA模型在中文的应用上同样适用。