基于非结构化数据的多类型网络构建研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cxxxcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业信息化与互联网的发展促使非结构化与半结构化数据不断增加。针对海量非结构化与半结构化数据进行挖掘分析成为近年来研究的热点。复杂网络与中文信息处理的最新研究成果为非结构化和半结构化数据挖掘提供了一个新方法和视角。即将中文信息处理技术与网络构建技术相结合,采用中文信息处理技术抽取非结构化数据中包含的信息,并构建网络进行分析,进一步挖掘其潜在信息。分析复杂网络在不同领域的应用,其主要包括两个阶段:网络构建与网络分析。网络构建是指从实际应用数据中,建立个体之间相互联系,构建关系网络。这是复杂网络应用的基础与关键。因此本文将以非结构化数据为对象,研究利用中文信息抽取技术构建多类型网络。首先,本文对文本聚类进行研究,并将其应用到数据集划分中,将数据集划分不同领域或主题的子数据集。通过对传统文本聚类的实现与分析,将复杂网络中的社区划分算法应用文本聚类中,实现基于社区划分算法的文本聚类,并取得一定的效果。其次,本文采用中文信息抽取技术抽取非结构化数据包含的实体相关信息。由于网络构建中边的重要性,本文主要对实体关系抽取进行研究。对传统的无监督聚类实体关系抽取算法中的实体对上下文信息收集以及实体对聚类两阶段进行改进,更快、更好的抽取非结构化数据中包含的实体关系。同时针对单文档以及稀疏文档集,本文实现了基于事件框架的实体关系抽取,以抽取用户指定的特殊实体关系。再者,通过比较复杂网络在不同领域的应用,分析与总结出常用的网络类型,即同质、异质、动态网络。根据非结构化数据的信息元素的多维性,从不同的视角与维度出发,构建了文档-文档关系网络、文档-实体关系网络、实体-实体关系网络以及动态网络。最后,设计并实现多类型网络构建原型系统,将本文中的研究内容融入其中。分别对各研究内容与原型系统进行实验,以验证其有效性。
其他文献
胶囊内窥镜发明后,就一直在临床应用中被不断推广。虽然胶囊内窥镜能够有效的探测人体消化道内大病症,但是始终无法满足医生主动控制胶囊去探测小区域病症的要求。主动接近可
伴随近几年高校规模的不断扩大和教育制度的不断完善,高校党政办公室管理工作强度逐年增加,其复杂性和多样性使得高校办公管理工作的信息化和网络化势在必行,开发高效的基于
随着搜索引擎和万维网的飞速发展,快速增长的网络信息在供人们分享和获取的同时,也催生了大量的搜索引擎作弊行为。搜索引擎作弊是指利用各种手段欺骗搜索引擎排序算法,从而
在高等教育飞速发展的今天,文献信息资源的保障能力对高校的教学和科研水平起着决定性的作用,其中数字文献信息资源所占的比例在日益增大,读者利用数字文献资源的习惯也在逐
学位