论文部分内容阅读
情感分析是指从文本数据中挖掘出情感信息的一项自然语言处理任务。早期的粗粒度情感分析方法主要用于判断文章或句子整体的情感极性,比如负面、中性、正面,在股评分析和舆论分析等领域具有良好的应用。但在网上购物和服务预约等业务的在线评论文本中,整体的情感极性却因无法准确捕获商品或服务的具体优劣,最终没有充分挖掘出文本的情感信息。因此,互联网平台上的许多商家和用户都对情感分析任务提出新的需求,即希望进一步获得具体评论目标的某一方面所对应的情感分析结果,比如“菜”的“味道”方面和“价格”方面。基于方面的这种细粒度情感分析方式也被称为方面级情感分析。本文将围绕长度大于200个字符的中文在线评论文本,展开细粒度情感分析的深度学习方法研究。本文研究内容主要包括:(1)在文本的局部特征分离与提取问题上,本文提出一种词选择机制(word selection mechanism,WSM)。由于表达某一方面情感信息的词语在全文中占比较少,如何从文本中提取出关键词将是方面级情感分析的重点。本文提出的词选择机制可以有效地从冗长的文本中提取出与情感分析任务有关的词语。实验采用macro F1值作为评价指标,通过对比不同模型在评论文本20个方面上的平均预测效果,发现WSM+CNN的macro F1值比CNN高1.2%,LSTM+WSM的macro F1值比LSTM高2.6%。(2)在不平衡数据集采样方式上,本文提出一种基于指数压缩的采样算法。该算法在对不平衡数据进行采样时,通过有效地控制采样比例,使采样后的数据既能一定程度上保持原有不平衡分布的特点,又相对平衡。通过格点搜索的方式寻找最优压缩系数,最终提高模型macro F1值。实验结果表明本文提出的采样算法可以有效地改善模型在使用极不平衡数据进行训练时,对样本数量较少的类别欠拟合的问题。(3)在多方面情感分析问题的研究上,本文提出一种可同时对文本的多个方面进行情感分析的模型,即方面导向的多标签学习(aspect-oriented multi-label learning,AOML)情感分析语言模型。不同于现有的主流情感分析模型,例如ATAE、GCAE等,该模型无需添加额外的方面信息。相反,该模型可以从文本中主动寻找和定位方面信息,进而在方面信息的指导下进行情感分析。实验结果表明,本文提出的AOML+WSM模型的macro F1值比CNN,GCAE,ATAE分别高3.8%,2.9%,0.9%。