面向单幅不确定大图的频繁模式挖掘技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tianyou424
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在军事信息系统中,军事情报分析与处理分系统占据重要地位。随着各类情报获取手段的演进,军事情报数据呈现出异构性和非结构化等特点,使得军事情报分析与处理面临极大的技术挑战。海量文本情报分析是情报分析与处理中最重要和最基础的组成部分。当前,一种从整体上把握文本情报的有效手段是构建以单个文本为节点、文本之间相互关系为联系的文档网络图,即单幅大图(网络)数据,并在此基础上开展一系列分析研判。本文以文本情报分析为应用背景研究单幅大图(网络)上的数据挖掘问题。由于噪声、测量误差、保密性、不完整性等原因,不确定性在现实世界的数据中广泛存在。作为一种具有广泛建模能力的数据模型,图数据中也存在着不确定性。除了前述的文档网络图,生物信息学、社会网络等领域中亦大量存在着不确定图。因此,针对不确定图的研究成为国内外的热点。本文使用不确定图建模文本军事情报,并在此基础上挖掘频繁模式;目前在单幅不确定大图上频繁子图挖掘的问题尚未见已公开的研究。首先,对单幅不确定大图上子图模式的支持度进行了定义,据此提出了基于枚举-评估的支持度评估方法。枚举策略采用与确定图挖掘时相同的方式,本文主要关注支持度评估过程。其次,通过证明在单幅不确定图上期望支持度的计算是#-P难的,设计了一种具有精度保证的近似算法以满足实际应用需求。然后,为进一步增强算法效率,提出了两种优化策略,一是考虑对样本图计算结果的重用,二是引入检查点机制和基于结构的上界,提前对不频繁的分枝进行剪枝。上述两种优化策略的应用提升了挖掘性能。最后,在实际数据集上进行的实验验证了该挖掘方法及优化策略的实际可用性和有效性。为了进一步评价所提技术的实际效用和意义,在真实文本情报数据上开展了应用研究。对于采集的公开文本情报数据,以文档为节点、文档间相似度为边建立文档关联。使用LDA模型为节点附加标签,使用基于知识库的算法衡量节点间相似度;当相似度大于给定阈值时,则连接一条边,并以相似度值作为边上的概率。最终建立文档网络图,并用所提技术对其进行挖掘。实验结果表明,发现的模式具有可解释性,所提挖掘技术具有较好的实际应用前景。
其他文献
春游关门山rn阡陌杨柳过眼连,峰峦染翠漫无边.rn清风洗碧云天际,残留雪白沟壑间.rn映日山花争绚烂,经雨草木竞艴然.rn和光普照万物秀,不负佳期发华颜.rn
中国股市由于缺乏做空机制和风险对冲工具,系统性风险高达65.7%。2005年4月8日,沪深两交易所正式向市场发布了沪深300指数,用沪深300为标的指数开展我国第一个指数期货的交易已经
有人说,诗歌是炸弹和旗帜,那么涛人就是掷弹手和擎旗人.而鲁迅先生说过:一首诗吓不倒孙传芳.有人说,诗是花前月下的柔曲,那么诗人就是婉转的夜莺了,而的确有发黄钟大吕之声的
今年3-4月号发表的青年诗人力践的长诗,的确是一首让人惊喜的好作品.正如编者在“刊首寄语”中指出的,这首诗“意境开阔,语言醇美,在社会与自然广大的空间中,表达了诗人对历
随着高等院校校园网建设的迅速发展和普及,管理信息系统MIS(ManagementInformationSystem)在高校的各项管理工作中发挥着越来越重要的作用,有效地促进了高等院校的快速发展。哈
工业4.0时代的开始也就意味着第四次工业革命的到来,制造业生产将发生翻天覆地的变化.工业4.0企业区别于过去生产的显著特征是拥有智能生产、 智能物流.本文首先概述工业4.0
工程项目实践中,项目业主往往将自身的风险转移给承包商,导致风险分担不均衡。尽管有研究指出,这种不均衡的风险分担可能会破坏业主与承包商之间的合作关系,从而降低工程项目绩效
迎来百期,作为主编乃至整个编辑部同仁的心情都难以平静.这里既有欣喜之情,更有良多感慨.rn说实话,在诗并不怎么景气,严肃期刊普遍生存维艰的背景下,这么一本属于诗的,又属于
清贫,洁白朴素的生活,正是我们革命者能够战胜困难的地方!rn--方志敏rn这是美丽五月的第一个早晨rn窗前的迎春在风中摇曳 吐露rn鹅黄与嫩绿的清芬rn而清芬的风 与我一起rn阅
期刊