基于信息抽取的社会网络构建技术的研究与应用

被引量 : 4次 | 上传用户:liuyibi1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,如何利用海量数据的分析来协助犯罪调查和防止犯罪发生的对策研究已成为执法部门和情报部门面临的重要难题。研究者们对目标对象相关数据的统计学分析、结构化目标对象相关数据的挖掘、社会网络的分析方法等数据分析方法上进行了广泛的研究。其中,在用于分析目标对象间的相互关系,紧密程度等方面,社会网络分析的方法逐渐得到了认可。社会网络分析的方法是通过构建社会网络,用节点表示目标对象,连线来表示关系,分析与挖掘目标对象的信息、心理行为等规律,找到隐藏线索,挖掘出目标对象社会网络中的重要节点和潜在的结构,从信息分析的层面协助执法部门或情报部门对事件进行调查。随着信息网络的高速发展,非结构化信息的不断增多,信息分析难度呈几何级数的增加,以往通过结构化的数据构建社会网络的方法已经不适合动态多变的海量信息了。而从大量的非结构化或半结构化目标对象相关数据中抽取信息并构建可视化目标对象社会网络,掌握目标对象关系网络的结构对于处理犯罪案件具有十分重大的意义。本论文将信息抽取技术与本体论相结合运用于目标对象关系网络的构造,研究一种新的面向非结构化信息抽取的社会网络构建方法。采用信息抽取技术从非结构化或者半结构化的文本中,提取目标对象社会网络构建需要的内容,并以结构化的形式,例如XML文档或关系数据库形式保存下来。最终,提供给社会网络可视化工具,进行可视化展示和社会网络分析,协助执法部门或情报部门分析目标对象的社会网络关系。目前,在非结构化信息抽取技术上仍然有很多困难。其中,采用统计学习方法的信息抽取系统,非常依赖特定领域的训练文本,训练文本的涵盖范围直接影响到信息抽取的准确度。而更传统的采用模式匹配方法的信息抽取系统,由于其模式匹配的技术局限性,只能针对特定的实体类型和实体关系进行抽取,模式较为死板,不具备通用性,特别是在实体关系抽取上面临比较大的难度。本论文引入基于本体的信息抽取技术。通过对目标对象社会网络的需求分析,构建目标对象适合的本体,结合本体进行本体实例的构造,最终完成信息抽取并生成符合社会网络可视化结构的XML文档。结合科研课题提供的目标对象相关数据,进行信息抽取,社会网络的构造,并根据信息抽取的召回率和准确率来评判目标对象社会网络构建的可行性。实验结果表明,本文研究的基于信息抽取的社会网络构建技术,能够有效地从非结构化文本中目标对象的信息,关系并构建可视化网络,对分析目标对象的社会关系提供帮助。在这个框架的基础上可以通过扩展本体,对更多目标对象领域进行非结构化信息的抽取构建领域网络结构。
其他文献
在任何语言中,我们都经常会看到一种这样的情况,就是从不同的角度可以表达相关联的事。比如日语中的"卖"和"买"、"借出"和"借进"、"教"和"学"等,它们都可以从给出方或接受方
《八幅水彩画的回忆》是一部将民族音乐与西方作曲技法相结合的标题性组曲,作品具有“中西融合”的特点:突出旋律的民族性;重视和声的色彩性;把握作品的结构布局;融合中西方的文
汾河下游石滩至河津全长约220km,流经临汾、运城两个地区,是山西省重要的工农业基地。多年来,由于黄河水流之顶托,汾河下游逐年淤积,行洪能力减小,致使1988年河津水文站出现5年一遇洪水,其淹没
执政党意识形态建构的基本要素包括价值性要素、目的性要素、策略性要素和主体性要素,其价值性要素是执政党确立的价值取向,其目的性要素是执政党建立的目标体系,其策略性要
目的了解腹腔镜结直肠癌根治术的手术室整体护理措施及效果。方法选取30例行腹腔镜结直肠癌根治术患者随机分为观察组和对照组,观察组实施整体护理干预,对照组实施随机对症护
修辞在新闻报道中应用广泛。本文以《南方周末》为例,探讨修辞在调查性报道文本中的实际运用。本文主要对修辞在调查性文本中恰当运用和使用不足之处进行了总结。得出修辞积极
CL结构体系(composite light-weight)是我国自行研发的一种新型结构体系,具有节能、抗震、增加使用面积、自重轻、保温隔热效果好、降低成本、提高工效等优点。2002年被建设
目前,中国的护肤品行业存在着众多的外资日化巨头以及具有实力的国产品牌。W公司是其中的一家国内护肤品企业,尽管成立十多年以来发展迅速,但是也遇到了市场份额停滞不前的发
城市公交维持着城市功能的正常运转,对经济发展和社会进步有着巨大的推动作用。各国都开始不同程度的重视公交行业的发展,为了推动公交的良好运行,都纷纷推行公交行业的市场
20世纪90年代以来,阿根廷与美国的关系经历了“亲美”到“离美”的重大转变。梅内姆政府与美国结盟,推行亲美政策。德拉鲁阿政府和杜阿尔德政府时期,阿根廷调整了对美政策,其