基于LDA主题模型的评价对象抽取研究

来源 :河北师范大学 | 被引量 : 2次 | 上传用户:yuanjian2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来电子商务发展迅猛,顾客在购买产品之后针对产品的主观性评论也与日俱增。这些网络评论信息表达了人们的各种情感色彩及情感倾向性,包含着非常重要的价值。客户购买商品前,经常通过之前用户的产品评论来了解该产品的质量和服务,根据所获取的信息再决定是否购买。同样,这些评论信息对商家也有着重要的意义,他们可以通过评论获取客户的反馈,从而了解产品在哪些方面受到青睐和好评,而在哪些方面应该努力改进,从而实现自身商业利益的最大化。针对网上大量的评论文本,如果仅通过人工方式来分析处理显然是不现实的,需要通过计算机快速获取和处理这些具有主观情感色彩的评价信息,情感分析技术应运而生。情感分析技术包含了许多方面的任务,评价对象抽取就是其中非常重要的任务之一。评价对象抽取的研究主要包括基于规则/模板的方法和基于统计的方法。基于规则/模板的方法需要领域专家定义相应领域的评价对象和规则,无法满足不断出现的新词,不具有跨领域性,可移植性差,同时也不能将评价对象进行聚类。LDA主题模型是一种无监督统计模型,不仅能克服上述方法的缺点,也无需大量的人工标记,得到了研究者的广泛关注。但LDA主题模型在应用时忽略了词的位置信息和语言结构信息,并不适合评价对象抽取的研究,因此需要对其进行扩展,以达到抽取目的。在LDA的扩展模型中,虽然有很多能识别出评价对象,但无法将评价对象和评价词分开,而Zhao等提出的MaxEnt-LDA模型在LDA中引入最大熵,通过最大熵模型来加入相应的语言特征以弥补标准LDA的缺陷,并能识别出评价对象,同时能将评价对象和评价词分开。但MaxEnt-LDA模型只考虑了词法特征,忽略了句法特征,而最大熵部分也存在一些不足。针对上述问题,本文提出了基于主题-条件随机场的CLDA模型,进行评价对象的抽取。首先在LDA模型中引入条件随机场,来区分评价对象,评价词和背景词;然后,通过加入指示变量,对评价对象,评价词和背景词进行全局和局部的区分,之所以要将词进行全局和局部的区分,是因为顾客在对产品进行评价时,有些用词使用比较频繁,容易将其他的评价对象或评价词淹没,所以使用全局和局部来区分出频繁用词和非频繁用词。通过CLDA模型不仅能够达到抽取评价对象的研究目的,而且能够将评价对象和评价词进行分离。为验证CLDA模型的有效性,实验中使用Restaurant领域的评论数据集,进行定性分析和定量分析,在定量分析中,与MaxEnt-LDA模型进行对比,实验结果表明CLDA模型在评价对象抽取方面,有着更好的性能。实验中还重点讨论了条件随机场模型中的特征选择问题,通过实验验证了选用词特征,词性特征和依存句法特征的有效性。最后由于主题模型在中文评价对象抽取方面的研究较少,所以本文将CLDA模型用于中文的评价对象抽取,实验证明CLDA模型在中文的应用上同样适用。
其他文献
一名合格的医生不仅要有良好的医疗技术,还要有高尚的职业精神和职业道德。本文阐述了如今医学院校思政教育中医学职业精神培养存在的问题,并从加强人文思政教育、建立机制配
中国加入WTO以后,与美国的经贸关系日益密切,双边经贸摩擦逐渐增多。2018年中美两个世界大国之间出现贸易摩擦并一度呈升级态势,给各自经济发展造成下行压力,也给相关国家及
目的:探讨粗隆下短缩截骨结合Zweymuller假体全髋关节置换术( THA)治疗CroweⅣ型成人发育性髋关节发育不良( DDH)的早期临床疗效。方法2006年1月至2011年12月对12例(18髋) CroweⅣ型
在诸多资源趋于短缺的大趋势下,依赖资源成长的模式面临各种瓶颈。这些瓶颈对在资源上本来就不占优势的中小企业来说,甚至意味着生死门槛,突破了,才能立住,否则就可能沉沦。
骨关节炎(OA)现有的临床治疗方法疗效并不理想,随着医学及相关领域的迅速发展,再生医学利用干细胞以及细胞因子发挥治疗效应,已逐渐成为一种新的治疗OA的手段。其中种子细胞