基于词典和组合分类器的中文主观句抽取

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:TIGERKING2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网上信息量呈现爆炸式增长,有价值信息出现的同时无用的冗余信息也变得越来越多。为了应对海量信息的严重挑战,帮助人们从中找到真正有价值的信息,需要一些自动化文本处理工具。观点句抽取的研究旨在开发出能够良好的区分主观句和客观句的系统,帮助人们挑选出具有观点信息的数据。该项研究的意义体现在两方面。一方面,随着网络购物的逐渐普遍,网民在购买前通常会上网搜索该产品相关信息,查看相关购买者或用户的评价信息。而作为产品的提供者,希望及时地了解到该产品的用户评价和认可度,也会上网去搜寻自己产品的网络评价信息,把握产品动态。另一方面,具有观点信息的数据是自然语言处理领域中的多项研究分支的研究基础和前提。由此可以看出,对主观句抽取的研究有着极其重要的意义。   针对中文主观句抽取,本文提出了一种基于词典打分的新抽取方法,采用由指示性动词、指示性副词、情感词、语气感叹词和语气标点符号所构成的主观性词典,将该词典中词语通过训练数据进行评分,之后利用词典对测试语句打分并通过设置合理阈值进行过滤。然后,利用多分类器间互补性,设计了一种分类器组合方法,该新型策略参照蔡晰[1]等人所提出的基于最大纠错能力的分类器组合策略,改进传统单一纠错,实现了正负类双重纠错,从而提高分类精度。通过实验分别验证了两种方法的有效性。最后,文本将词典打分过滤和组合分类器方法结合,组成中文观点句抽取系统,最终实验结果表明当两种方式结合时达到最佳抽取效果。本文的创新点为:1)提出了有效的词典打分过滤算法;2)利用多分类器间互补性,设计了一种新型分类器组合方法;3)将打分过滤算法和多分类器融合相结合,相互补充。
其他文献
随着信息技术的发展,大规模数据的不断涌现使得信息可视化领域受到越来越多的重视,其中焦点与上下文技术成为处理大规模数据的有效手段之一。鱼眼视图是焦点与上下文技术的主要
学位
随着集成电路芯片集成度的不断提升以及电源电压等比例缩小趋势的放缓,功耗成为当前首要的设计瓶颈。有限的功耗预算(Power Budget)促使微处理器设计在结构和实现上发生了质
随着经济的发展和社会的进步,我国城市化和现化代的步伐也在加快。城市经济发展的同时,城市道路车辆急剧增加,近几年城市道路拥堵现象时有发生。现阶段交通管理水平及智能化程度
本系统以实现大豆生产的高产、优质、高效为目标,采用多学科交叉与有机结合,信息专家与农学领域专家相结合,从宏观到微观、从定性到定量综合集成的方法而建立的。  本研究基于
随着Internet网络的发展,以及多媒体技术的广泛使用,传统“尽力而为”的数据传输服务显然已经不能满足网络的需要,高效可行的多约束QoS(服务质量)路由算法成为了研究的关键问题
在现代工业中,焊接起着非常重要的作用,焊缝的质量对产品的寿命起着至关重要的作用,然而在实际应用过程中,焊缝缺陷情况时常出现,使得焊件存在极大质量隐患。在这种情况之下,
21世纪,随着科学技术日新月异的发展,计算机技术、自动控制技术、电子技术都迅速发展起来,农业机械也向着高度自动化、智能化的方向迈进。与此同时,由于人口老龄化和劳动力的缺乏
随着互联网技术的高速发展和移动通信业务的兴起,用户的数据量呈爆炸式的增长,尤其是在电信行业。新颖的电信增值业务不断推出,电信客户群不断增多等都直接导致了电信业务量
在社会各行业领域对实时虚拟环境系统的需求不断增加的同时,人们也希望虚拟环境能提供更强烈的真实感体验。天空环境景观的渲染是室外自然光照环境的仿真模拟的一个重要方面