文档模型在舆情信息系统中的设计与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:betterman_swp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情,是指在一定的社会空间内,围绕舆情因变事项的发生、发展和变化,作为主体的民众对作为客体的执政者及其所持有的政治取向产生和持有的社会政治态度。舆情信息是对舆情的一种描述和反映。在舆情信息系统中,表现舆情信息的形式可以有多种,目前还没有固定标准。由于进入舆情信息系统中的信息来源于多种多样的数据源,而对于舆情信息的抽取和分析所使用的程序和算法是固定的,这就需要为各种数据源建立起一个统一的存储模型。本文提出了一种基于树的文档模型,对这种紧密结合用户需求的文档模型的操作借鉴但不局限于W3C的DOM。本文基于和北京市某中心的合作项目,主要完成了以下工作:1对不同来源的数据进行抽象并建立基于树的文档模型;2文档模型建立后,在其之上进行信息抽取、信息过滤以及模型中各个分支的抽取与过滤;3经过处理后的文档模型,可被序列化存储到数据库中,并且分类和提供检索;4对信息抽取和过滤计算准确率和召回率。测试文档生成的效率和占用内存情况,做出分析和解析,使文档模型能够更加准确地存在于系统之中。在设计和开发的过程中,应用了许多计算机技术,如数据库连接池、面向对象的java语言程序设计,GUI部分用到的swing类库和JfreeChart包,软件单元测试和极限编程的若干开发思想等等。在信息抽取源的选择上包括了网页、Word等,对于每种数据源都有相应的数据适配器。对文档模型的分类,采用了贝叶斯分类器,并动态调整反馈器的参数。
其他文献
随着Internet的发展,网络考试系统得到了越来越广泛的应用。尤其是近几年来,我国高职院校的迅猛发展,计算机网络和机房教学设备都已普及,因此,采用计算机网络进行考试的需求
[摘 要] 根据专业认证的成果导向教育理念(OBE),提出供热工程课程的毕业要求;分析了供热工程课程教学现状和存在问题。基于OBE理念,从课堂教学方法改革、学生专业技能培养,以及课程考核等方面,探讨了供热工程课程教学改革的内涵。   [关键词] 专业认证;供热工程;教学改革   [中图分类号] G642 [文献标志码] A [文章编号] 1008-2549(2019) 09
作为一种重要的算法,聚类在数据挖掘、模式识别、图像处理及数据压缩等领域有着广泛的应用。它根据相似度将各个样本点划分到不同的组中,使得同一组中的样本点差异尽可能的小
随着信息技术的发展,为满足日趋复杂的业务要求而提出的服务(Service)概念得到了迅速发展,服务以其松耦合、统一接口的特点为实现跨地域、跨平台网络资源动态集成带来了新的
随着大数据时代的到来,云计算技术也得到了迅猛的发展。而且云平台中的资源可以像水电、煤气一样按需使用、按量计费、弹性扩展、极其廉价。越来越多的中小企业选择购买云服务
系统崩溃现场处理(core dump)是指在系统崩溃时将系统状态保存在永久性存储器(persistent storage)中的过程。被保存下来的系统崩溃现场可用于调试和分析,以寻找系统崩溃的原
随着计算机技术的飞速发展,迫切要求改善人与计算机之间的交互方式,由于手势在语义表达方面所具有的友好性与直观性,使得手势在人机交互中得到广泛应用和研究。为了提高人机