【摘 要】
:
由于对象为文本的数据库日益增多,并且这些数据库都在频繁更新,所以针对实时更新的文本数据库应产生相应的时态关联规则,以便挖掘时态文本数据库中隐藏的大量未知信息,这也将
论文部分内容阅读
由于对象为文本的数据库日益增多,并且这些数据库都在频繁更新,所以针对实时更新的文本数据库应产生相应的时态关联规则,以便挖掘时态文本数据库中隐藏的大量未知信息,这也将有助于发现事物发展的本质规律,使得发现的知识更加切合实际意义。虽然关联规则算法已经被深入广泛地研究,但在文本数据中时态关联规则算法研究还不多见。本文以时态文本为对象进行了时态关联规则的算法研究。首先对实验对象进行时态文本预处理,将时态文本用向量空间进行表示;然后提出时态文本表示模型及时态文本关联规则模型;再提出时态文本关联规则算法SPFM,最后通过实验对该算法进行了有效性验证。本文采用C++编程语言实现SPFM算法在时态文本关联规则挖掘中的运用。我们将时态文本数据库转换为垂直数据格式,通过SPFM算法寻找有效时间,挖掘有效时间内的频繁项集,最后对时态文本进行强关联规则的挖掘,最后通过实验验证了算法SPFM是实际可行的。该算法在实际应用中有很大的意义,不仅能对医学病毒论文进行分析,也可以推广运用在计算机病毒挖掘、警务挖掘等大部分时态文本数据库中。在文本数据挖掘技术已经日渐成熟的背景下,把时态数据与文本挖掘联合起来,时态文本数据挖掘应用于各种文本数据库将为以后的研究工作有很大作用。
其他文献
随着知识经济、信息化时代的到来和全球一体化进程的加快,教育信息化已成为21世纪世界各国新一轮教育改革的重要内容和指标。一个国家的教育信息化发展水平也成为衡量其教育现
根据语言学家George Yule对会话方式的划分理论以及Edward T.Hall的文化语境性理论可知,中国文化是高语境文化,而美国文化是低语境文化,两种会话方式与高低语境文化的关系在
周恩来与阎宝航余科杰阎宝航(1895-1968),辽宁海城人,曾任全国政协常委,著名的民主主义者和共产主义者,长期在周恩来同志领导下从事统战工作、地下工作和外事工作。他们在长期的革命斗争中结
《关于禁毒的决定》和新修订的刑法都规定了对毒品再犯从重处罚。但是,对于毒品再犯的成立条件,特别是随着《刑法修正案(八)》对累犯的成立条件做了一些限制以后,毒品再犯的成立条
课程知识作为教育知识的基本组织形式,是从人类社会的生产与生活知识积淀中选择出来的为社会个体的成长与发展服务的教育内容序列。学校教育的目标、方向以及人才培养的规格最
<正>新中国成立以来,经济高速发展,杭州的边边角角都发生了翻天覆地的变化。从江涂到杭州人的"菜篮子"再到如今的"中国服装第一街",从"西湖时代"迈向"钱塘江时代"的同时,一个
<正>动脉硬化性脑梗死(ACI)是脑部动脉粥样硬化和血栓形成,致脑血管管腔狭窄或闭塞,引起局部脑组织缺血、缺氧、坏死的脑血管疾病。其高发病率、致残率和死亡率使其成为全社
FKCN在分割图像时存在速度慢,对噪声比较敏感等问题。对FKCN进行改进,提出了快速的FKCN与图像局部信息相结合的遥感图像分割算法,将图像的空间信息和像素信息引入到改进的FKC
分析了基于随机抽样检测思想的现有鲁棒算法在基本矩阵估计中存在的不足,结合LMedS和M估计法各自的优点,提出一种新的高精度的L-M基本矩阵估计算法。利用LMedS思想方法获得内