基于文本挖掘的用户评论分类解析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:liongliong520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户评论数据剧增是互联网Web2.0兴起后的一个重要现象。这是一个评论的时代,人们在阅读新闻、图书,观看电影,听音乐和购买商品时都会参考历史用户评论;在消费完成后,又会留下新的用户评论。如何利用好海量的用户评论数据是当今互联网界积极探索的一个领域。用户评论数据是一种非结构化的文本数据,对其的利用主要依赖文本挖掘的相关技术。从海量用户评论数据中提取评论主题,对其归类并展示其主题观点,成为了一种非常热门的应用场景。但是当前对图书用户评论的利用的进展依然非常缓慢。本文针对图书用户评论的主题归纳这一应用场景,提出了一种基于文本挖掘的用户评论分类解析系统的设计与实现。本文的主要工作可以归纳如下:(1)分析了用户评论数据的利用现状,总结了图书用户评论的数据特性,提出图书用户评论分类解析系统的设计思路和实现方案。(2)总结了图书用户评论和商品用户评论的异同,设计并实现了基于关键词过滤规则的垃圾评论过滤模块。(3)设计了一种新词自动提取方法。通过从语料中提取候选词,计算候选词的支持度和置信度,通过阈值刷选出新词,从而快速构建适合对图书用户评论分词的专属词典。(4)在垃圾评论过滤和专属词典构建的基础上,设计了基于词对搭配的频率统计和离散熵进行阈值筛选确定主题的方法,并进行了实现。(5)使用真实的图书用户评论数据应用本系统,产出结果数据,验证效果。
其他文献
B/S与C/S是目前应用的的两大主流技术,各自有其优缺点.这里不讨论两种模式体系架构的区别,主要关注于界面方向上的差异。BS上的界面表现形式灵活,可以动态修改不用重新编译程序;缺
为使学生更好地融入企业,使学生得到有效训练,做到学以致用,本文根据工科学生毕业环节的特点,提出了一种“设计+工程项目”的毕业环节教学方法.结合机械类专业的特色,采用设
《古诗十九首》创造出一种非常规空间艺术 (设置虚实空间、扩大缩小空间、变形空间和变换空间 ) ,有效地传达情感 (离愁别绪 )。 ( 1 )实际空间是有限的 ;虚设空间是无限的 ,
随着多媒体技术和计算机网络的快速发展,数字媒体的制作和传播变得更加方便和快捷,同时盗版和侵权的问题也日益严重.数字水印技术作为一种数字媒体版权保护的有效方法,近年来
随着计算机网络及通信技术的发展,各种软件新技术被应用于信息系统的开发中,其中,工作流技术以其良好的适应性和灵活性更是受到广泛的关注。它让企业从繁琐的业务过程逻辑处理中
分形图象压缩编码是一种新型的图象压缩技术.它思想新颖,压缩比高,如今已成为图象压缩领域的研究热点.本文提出了一种基于圆盘特性的非线性分形图像压缩编码算法的改进型算法
以升格为本科后的浙江越秀外国语学院为例,从实现SPT培养目标及进一步提升学院的内涵建设着手,对推进本科大学生思想政治教育,提出新问题,探索新思路.
随着现实社交网络服务的飞速发展,理解网络用户之间潜在的影响力的传播过程,能够帮助我们更好的理解网络结构的动态演化,以及不同的信息对于人与人之间的社会影响作用。现有的关
受经济下行影响,加之中国人民银行对合意贷款规模的严格管控,农村信用社放贷积极性不高。建议逐步弱化合意贷款规模指令性、强制化作用,取消或者改进合意贷款规模管理模式,引
该文研究了网络攻防的特点,深入研究端口扫描的各种技术,开发了具有中国自主版权的,特色鲜明并能够实际应用的端口扫描软件.本文重点阐述了端口扫描软件的设计和实现的关键技