论文部分内容阅读
随着互联网技术的快速发展,使用互联网的人数剧增,使得在互联网中产生了丰富的文本信息。将这些文本数据量化,会产生很重要的数据价值。而中文文本情感分析是对文本信息进行分析、研究的一种方法,目前主要的文本情感分析方法是语义理解和机器学习。本文从统计机器学习的角度出发,进行的研究工作主要分为以下三个方面:1、改进特征选择算法。特征选择是文本情感分类重要的步骤,可以有效的降低特征项的数量,减少无关特征项的干扰。本文在分析信息增益算法的基础上,根据算法的不足设计了相应的计算因子,提高了信息增益算法选择的特征词的分类效果。最后设计实验验证融合计算因子后算法的性能。2、对SVM的理论进行学习,发现分类器的训练时间受输入数据和支持向量数量的影响,而构建超平面时只有支持向量起重要作用,使得训练数据过大时,影响模型训练时间。根据K-means聚类算法保留原始数据分布结构的特点,将其与SVM算法结合,缩减训练数据集,加快训练时间;SVM的惩罚因子和核参数的选择影响分类结果,借助遗传算法,找到最优的参数组合,获得较好的分类效果。将上述两个算法与支持向量机融合,设计实验验证优化算法的性能。3、基于上述的算法优化,搭建文本情感分类模型,通过比较实验,检验模型的情感分类效果。