论文部分内容阅读
博客作为一种网络媒介,是用户进行信息分享、传播以及获取的平台,微博作为一种受欢迎的博客形式最近几年发展迅速。博客和微博网站用户数量巨大、每天产生海量文本数据,其中大部分为用户原创,包含很强的个人主观情感,能够反映大众的真实情感。这些数据对于研究用户主观态度、情感有重要价值,通过检索和挖掘这些信息可以实现网络舆情监测、热点话题发现与跟踪等应用。面向博客和微博的信息检索、观点挖掘和情感分析是当前自然语言处理研究的热点,具有重要应用价值。 论文研究和实现了基于垂直爬虫和Lucene的博客、微博全文检索系统,对面向中文文本的情感倾向性分析工作进行了研究,其中情感倾向性分析的研究工作主要做了以下几方面: 1.基于情感词典的情感倾向性分析工作,包括基础情感词典的构建、情感词语的识别、基于情感词典的微博情感倾向性分析方法。 2.基于机器学习的情感倾向性分析工作,使用朴素贝叶斯、最大熵、支持向量机三种方法进行情感倾向性分析,其中支持向量机方法取得最好效果。分析互信息、信息增益、卡方统计等特征提取方法对机器学习方法效果的影响,其中信息增益方法取得效果最好。 3.对支持向量机方法研究了核函数的改进方法,通过混合核函数方法和组合核函数方法取得了更好的效果。尝试了潜在语义分析和字符串核函数在情感倾向性分析中的应用,其中基于字符串核函数与支持向量机结合的方法取得了与现有方法最好结果接近的效果。 4.在评价观点抽取方面,研究面向商品评论文本的评价观点抽取方法,抽取得到评价商品属性和对应评价情感词语并将抽取结果应用于情感倾向性分析达到语义消岐的效果。 将博客和微博的检索系统与情感倾向性技术分析结合可以实现自动化的微博检索、分析系统能够分析特定话题、事件在互联网上的公众情感,可以为政府、企业、消费者等提供决策支持,能够应用到行业分析、营销效果评估等方面。