论文部分内容阅读
舆情,是指在一定的社会空间内,围绕舆情因变事项的发生、发展和变化,作为主体的民众对作为客体的执政者及其所持有的政治取向产生和持有的社会政治态度。舆情信息是对舆情的一种描述和反映。在舆情信息系统中,表现舆情信息的形式可以有多种,目前还没有固定标准。由于进入舆情信息系统中的信息来源于多种多样的数据源,而对于舆情信息的抽取和分析所使用的程序和算法是固定的,这就需要为各种数据源建立起一个统一的存储模型。本文提出了一种基于树的文档模型,对这种紧密结合用户需求的文档模型的操作借鉴但不局限于W3C的DOM。本文基于和北京市某中心的合作项目,主要完成了以下工作:1对不同来源的数据进行抽象并建立基于树的文档模型;2文档模型建立后,在其之上进行信息抽取、信息过滤以及模型中各个分支的抽取与过滤;3经过处理后的文档模型,可被序列化存储到数据库中,并且分类和提供检索;4对信息抽取和过滤计算准确率和召回率。测试文档生成的效率和占用内存情况,做出分析和解析,使文档模型能够更加准确地存在于系统之中。在设计和开发的过程中,应用了许多计算机技术,如数据库连接池、面向对象的java语言程序设计,GUI部分用到的swing类库和JfreeChart包,软件单元测试和极限编程的若干开发思想等等。在信息抽取源的选择上包括了网页、Word等,对于每种数据源都有相应的数据适配器。对文档模型的分类,采用了贝叶斯分类器,并动态调整反馈器的参数。