中文文本情感分析关键问题的研究和优化

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:qq12433184000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,使用互联网的人数剧增,使得在互联网中产生了丰富的文本信息。将这些文本数据量化,会产生很重要的数据价值。而中文文本情感分析是对文本信息进行分析、研究的一种方法,目前主要的文本情感分析方法是语义理解和机器学习。本文从统计机器学习的角度出发,进行的研究工作主要分为以下三个方面:1、改进特征选择算法。特征选择是文本情感分类重要的步骤,可以有效的降低特征项的数量,减少无关特征项的干扰。本文在分析信息增益算法的基础上,根据算法的不足设计了相应的计算因子,提高了信息增益算法选择的特征词的分类效果。最后设计实验验证融合计算因子后算法的性能。2、对SVM的理论进行学习,发现分类器的训练时间受输入数据和支持向量数量的影响,而构建超平面时只有支持向量起重要作用,使得训练数据过大时,影响模型训练时间。根据K-means聚类算法保留原始数据分布结构的特点,将其与SVM算法结合,缩减训练数据集,加快训练时间;SVM的惩罚因子和核参数的选择影响分类结果,借助遗传算法,找到最优的参数组合,获得较好的分类效果。将上述两个算法与支持向量机融合,设计实验验证优化算法的性能。3、基于上述的算法优化,搭建文本情感分类模型,通过比较实验,检验模型的情感分类效果。
其他文献
分析了锌电积过程中影响电流效率的因素,找出了提高电流效率的措施。
科研人员在有关科研活动中违背科研诚信的问题,日益受到全社会的关注。归纳分析科研失信的主要表现,阐述科研诚信体系建设的重要性和必要性,提出科研诚信体系的多维度建构策
在我们经济、社会快速发展中,事业单位的日常工作开展离不开高效、科学的规章制度。事业单位想要提升自己的运营、管理水平,对员工的管理和考核方式也需要不断改变和提升,科
作为推动我国司法民主的重要制度,人民陪审员制度几经更迭,发展至今,并未实现制度设计的初衷,“陪而不审”“审而不议”等成为常见的现象。文章从人民陪审员制度的背景出发,