论文部分内容阅读
近年来,互联网上信息量呈现爆炸式增长,有价值信息出现的同时无用的冗余信息也变得越来越多。为了应对海量信息的严重挑战,帮助人们从中找到真正有价值的信息,需要一些自动化文本处理工具。观点句抽取的研究旨在开发出能够良好的区分主观句和客观句的系统,帮助人们挑选出具有观点信息的数据。该项研究的意义体现在两方面。一方面,随着网络购物的逐渐普遍,网民在购买前通常会上网搜索该产品相关信息,查看相关购买者或用户的评价信息。而作为产品的提供者,希望及时地了解到该产品的用户评价和认可度,也会上网去搜寻自己产品的网络评价信息,把握产品动态。另一方面,具有观点信息的数据是自然语言处理领域中的多项研究分支的研究基础和前提。由此可以看出,对主观句抽取的研究有着极其重要的意义。
针对中文主观句抽取,本文提出了一种基于词典打分的新抽取方法,采用由指示性动词、指示性副词、情感词、语气感叹词和语气标点符号所构成的主观性词典,将该词典中词语通过训练数据进行评分,之后利用词典对测试语句打分并通过设置合理阈值进行过滤。然后,利用多分类器间互补性,设计了一种分类器组合方法,该新型策略参照蔡晰[1]等人所提出的基于最大纠错能力的分类器组合策略,改进传统单一纠错,实现了正负类双重纠错,从而提高分类精度。通过实验分别验证了两种方法的有效性。最后,文本将词典打分过滤和组合分类器方法结合,组成中文观点句抽取系统,最终实验结果表明当两种方式结合时达到最佳抽取效果。本文的创新点为:1)提出了有效的词典打分过滤算法;2)利用多分类器间互补性,设计了一种新型分类器组合方法;3)将打分过滤算法和多分类器融合相结合,相互补充。