面向博客的信息检索及情感倾向性分析研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yanjiajian7758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客作为一种网络媒介,是用户进行信息分享、传播以及获取的平台,微博作为一种受欢迎的博客形式最近几年发展迅速。博客和微博网站用户数量巨大、每天产生海量文本数据,其中大部分为用户原创,包含很强的个人主观情感,能够反映大众的真实情感。这些数据对于研究用户主观态度、情感有重要价值,通过检索和挖掘这些信息可以实现网络舆情监测、热点话题发现与跟踪等应用。面向博客和微博的信息检索、观点挖掘和情感分析是当前自然语言处理研究的热点,具有重要应用价值。  论文研究和实现了基于垂直爬虫和Lucene的博客、微博全文检索系统,对面向中文文本的情感倾向性分析工作进行了研究,其中情感倾向性分析的研究工作主要做了以下几方面:  1.基于情感词典的情感倾向性分析工作,包括基础情感词典的构建、情感词语的识别、基于情感词典的微博情感倾向性分析方法。  2.基于机器学习的情感倾向性分析工作,使用朴素贝叶斯、最大熵、支持向量机三种方法进行情感倾向性分析,其中支持向量机方法取得最好效果。分析互信息、信息增益、卡方统计等特征提取方法对机器学习方法效果的影响,其中信息增益方法取得效果最好。  3.对支持向量机方法研究了核函数的改进方法,通过混合核函数方法和组合核函数方法取得了更好的效果。尝试了潜在语义分析和字符串核函数在情感倾向性分析中的应用,其中基于字符串核函数与支持向量机结合的方法取得了与现有方法最好结果接近的效果。  4.在评价观点抽取方面,研究面向商品评论文本的评价观点抽取方法,抽取得到评价商品属性和对应评价情感词语并将抽取结果应用于情感倾向性分析达到语义消岐的效果。  将博客和微博的检索系统与情感倾向性技术分析结合可以实现自动化的微博检索、分析系统能够分析特定话题、事件在互联网上的公众情感,可以为政府、企业、消费者等提供决策支持,能够应用到行业分析、营销效果评估等方面。  
其他文献
可达性是区域交通网络状况的一项综合性评价指标,广东省作为全国最早实行对外开放的省份之一,经济和交通高速发展,交通可达性及其演化与区域经济发展水平高低有着密切的关系。 
随着Android智能于机的普及,Android应用程序的数量正在迅猛增长,截止到2013年4月,官方电子市场中的应用数量已经达到了68万。由于Android开放的生态系统和Android电子市场缺乏
LTE-A系统的频率复用因子是1,可以有效提升频谱利用率,但是会增大系统干扰,降低小区边缘用户的性能。CoMP (Coordinated Multi-Point Transmission/Reception,协作多点传输/
无线视频显示系统可以省去繁琐的视频信号线,以无线传输的方式传输视频内容。显示设备可以摆脱视频线长度的限制,可在无线传输范围内随意摆放,为用户提供更好的使用体验。随
鬼成像是一种利用光场二阶相干性进行成像的技术。不同于传统成像,鬼成像只需要用一个没有空间分辨能力的桶探测器获取来自物体的光,而具有空间分辨能力的探测器用来探测光源信
针对矿井井下通信及数据协调处理调度,研究其中的多源数据采集融合、监测监控方法、无线传感器网络路由协议、多传感器节点布置策略、多网互联远程监测系统构建等应用基础科学
远程医疗是现代信息技术与传统医疗相结合的产物。信息技术的发展和医疗服务的多样化使得远程医疗的内容更加丰富,远程医疗技术的发展需要利用高速网络进行数字、图像、语音、
人体检测、跟踪和行为识别是计算机视觉领域的重要课题,在智能监控、辅助驾驶、智能导航、人机交互等领域具有很好的应用前景。传统的基于彩色图像的人体检测、跟踪和行为识别
研究人员的主要任务是学习本领域的知识与研究状况,并寻求有效的方法来解决研究中的难题。对于大部分研究人员,尤其对于一些缺乏研究经验的研究人员来说,这并非易事。现有的学术
人体跟踪是计算机视觉中的重要研究课题,在安全监控、智能交通和军事等领域具有广泛的应用。目前,大部分人体跟踪系统和方法是基于单个视频图像序列的跟踪,其跟踪结果易受光照变