多领域的文本情感倾向分类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:f520li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的迅速发展,网上出现了大量带有主观性倾向的文本信息,为了对这些文本信息进行挖掘与分析处理,文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方法是进行文本情感倾向分析技术的重要步骤,但是仅仅考虑特征对文本情感倾向分类的作用已显得片面,本文将文本的主题信息与特征的类别区分能力相结合旨在得到既包含主题信息又包含区分能力的文本情感倾向分类特征。针对多领域的文本情感倾向分类问题,本文做了如下研究工作:(1)为了实现多领域的文本情感倾向分类,本文利用LDA主题模型对文本的主题信息进行了分析。通过建立文本表面的文字与隐藏于片段内的不同主题间的关联关系,获取主题在文本上的概率分布,实现文本的主题聚集。通过对2008年文本倾向性分析评测的2704篇文本的实验,对10个主题下的类别与已知领域类别进行的匹配结果表明,此时该文本子集的聚集纯度最高。(2)为了进一步对混合领域文本情感倾向性分类进行研究,本文利用LDA模型与Fisher判别准则两种方法进行交集和并集混合,获取用于文本情感倾向判别的特征,在此基础上,采用TF-IDF的特征权重计算方法以及文本情感分类效果较好的SVM分类器,在相同的文本语料上进行实验比较。结果表明,两种特征混合交集,在特征维数最低的情况,却得到了最好的情感分类结果。(3)针对多领域的文本情感倾向性分类问题,本文利用LDA模型将混合领域的文本进行领域聚集,在此基础上对各领域类别的文本,采用Fisher判别准则的特征选择方法重新选择了特征,仍采用TF-IDF的特征权重计算方法和SVM分类器,在同样的文本语料上进行实验比较。结果表明,当领域信息比较清晰时,文本的倾向性分类结果比较好,说明文本的情感倾向性分类是与领域相关的。
其他文献
交换环的零化理想图是M.Behboodi近年首先引进的。这种图为研究环的代数性质,尤其是理想结构,提供了有力的工具。本文首先研究了有界半环的零因子图的实现问题,然后在此基础
退化抛物-双曲方程具有非常广泛的应用背景,例如多孔介质污染物迁移过程,多相流中的对流-扩散过程,热传导过程,沉降-固化过程,生物在自然界中的扩散过程,金融决策过程等等。由于这
本文主要考虑了带耗散机制的双曲方程解的大时间行为。本文的主要内容如下:  第一章为绪论,在这里,我们回顾了带分数阶耗散项的Burgers方程,两维的带扰动项的Hasegawa-Mima方程