面向中文在线评论细粒度情感分析的深度学习方法研究

来源 :浙江工商大学 | 被引量 : 2次 | 上传用户:wangliang19910125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是指从文本数据中挖掘出情感信息的一项自然语言处理任务。早期的粗粒度情感分析方法主要用于判断文章或句子整体的情感极性,比如负面、中性、正面,在股评分析和舆论分析等领域具有良好的应用。但在网上购物和服务预约等业务的在线评论文本中,整体的情感极性却因无法准确捕获商品或服务的具体优劣,最终没有充分挖掘出文本的情感信息。因此,互联网平台上的许多商家和用户都对情感分析任务提出新的需求,即希望进一步获得具体评论目标的某一方面所对应的情感分析结果,比如“菜”的“味道”方面和“价格”方面。基于方面的这种细粒度情感分析方式也被称为方面级情感分析。本文将围绕长度大于200个字符的中文在线评论文本,展开细粒度情感分析的深度学习方法研究。本文研究内容主要包括:(1)在文本的局部特征分离与提取问题上,本文提出一种词选择机制(word selection mechanism,WSM)。由于表达某一方面情感信息的词语在全文中占比较少,如何从文本中提取出关键词将是方面级情感分析的重点。本文提出的词选择机制可以有效地从冗长的文本中提取出与情感分析任务有关的词语。实验采用macro F1值作为评价指标,通过对比不同模型在评论文本20个方面上的平均预测效果,发现WSM+CNN的macro F1值比CNN高1.2%,LSTM+WSM的macro F1值比LSTM高2.6%。(2)在不平衡数据集采样方式上,本文提出一种基于指数压缩的采样算法。该算法在对不平衡数据进行采样时,通过有效地控制采样比例,使采样后的数据既能一定程度上保持原有不平衡分布的特点,又相对平衡。通过格点搜索的方式寻找最优压缩系数,最终提高模型macro F1值。实验结果表明本文提出的采样算法可以有效地改善模型在使用极不平衡数据进行训练时,对样本数量较少的类别欠拟合的问题。(3)在多方面情感分析问题的研究上,本文提出一种可同时对文本的多个方面进行情感分析的模型,即方面导向的多标签学习(aspect-oriented multi-label learning,AOML)情感分析语言模型。不同于现有的主流情感分析模型,例如ATAE、GCAE等,该模型无需添加额外的方面信息。相反,该模型可以从文本中主动寻找和定位方面信息,进而在方面信息的指导下进行情感分析。实验结果表明,本文提出的AOML+WSM模型的macro F1值比CNN,GCAE,ATAE分别高3.8%,2.9%,0.9%。
其他文献
当前高校群体性事件发生频繁,网络舆情在高校群体性事件的发生过程中起到了重要的作用,网络舆情是群体性事件的心理动因,促进了其从社会空间到网络空间的演化.
摘 要:在经济全球化的背景下,培养留学生成为很多国家培养人才、实现国际间交流的重要方式。本文主要探讨国内现有的留学生教学方法及其在肾脏内科临床教学中的应用,探讨不同教学方式对课堂教学效果的影响,选择最有益于教学效果的教学方式,以实现MBBS项目的进步与发展。  关键词:医学留学生;教学方法;肾内科  留学生教育发展逐步成为衡量一个国家高校教育国际化水平的重要指标。据2016年4月教育部新闻办公室发
【研究背景】哮喘是一种以慢性气道炎症为特征的变态反应性疾病。近几十年来,支气管哮喘的发病率逐年增加,全球哮喘患者目前已达3亿,严重消耗了大量的医疗卫生资源。哮喘的发
摘 要:茶艺技能大赛作为促进高职学生茶艺技能的手段,越来越得到各大高校和行业的认可。本文将主要从高职茶艺技能人才培养模式的探索以及茶艺技能人才培养的成效两方面,探讨“以赛促学,以赛促教”模式下高职学生茶艺技能的培养。  关键词:以赛促学;茶艺;以赛促教  技能竞赛是促进教学模式改革、加速人才培养模式创新、提升学生综合素质和就业竞争力的有力措施,是检验学院培养学生技能水平的重要手段之一,也是检验教师
老龄化背景下,医保基金面临巨大的支付压力,但医保基金支付仍以较为粗放的总额预付为主。由于信息化已成为医疗体系的中枢,大医院基本建立了医院信息系统(CIS),医疗交易支付
目的:探讨胸部CT影像学表现结合床边气管镜下改变对重症侵袭性肺曲霉病(IPA)的早期诊断价值。方法:收集近10年新疆医科大学第一附属医院呼吸加强医疗病房(RICU)经病理确诊为IPA的非血液疾病患者的临床资料。根据最初入RICU时患者胸部CT影像学表现结合床边气管镜下改变作出是否符合IPA临床诊断,诊断标准符合2017年欧洲临床微生物学和感染病学会/欧洲医学真菌学联盟/欧洲呼吸学会(ESCMID-