【摘 要】
:
随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合
论文部分内容阅读
随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合结构信息、链接信息与内容信息的XML文档分类和聚类技术,设计并实现了一种有效的XML文档分类和聚类系统。 本文首先研究了XML文档的结构信息和链接信息的分析获取问题,通过抽取文档频繁子树和外部链接,分析了结构单元在文档类别(聚集)间的分布特点,论证了结构信息和外部链接信息对XML文档进行分类和聚类具有重要价值。针对XML文档中,标签过多、文档树层次结构过于复杂的问题,提出了通过机器学习方法对文档树剪枝的策略,并解决了文档结构抽取中子树重叠和冗余的问题;在外部链接信息分析方面,本文提出了基于PageRank算法计算XML文档与类别关联度的方法,优化了XML文档链接信息的权重,提高了分类与聚类的效果。然后,研究了利用文档结构信息、外部链接信息以及文档内容信息进行XML文档分类和聚类的方法。针对海量的XML文档聚类问题,本文提出了基于划分的局部迭代聚类的方法。本文还研究了多分类类别和频繁子树的筛选策略,以及利用网络搜索和WordNet词义扩充方法解决短文本信息量较少等问题。最后基于文档结构信息、链接信息以及内容信息的分析,本文利用SLVM模型设计并实现了XML文档集分类和聚类系统,在INEX2009和INEX2010年XML Data Mining Track评测的数据集上进行了实验,实验结果均高于评测中最好的参评结果。
其他文献
语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询 关键词一般较短(平均长度2-3),
软件开发是一个迭代的过程,通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具,包括编辑器、编译器、链接器、汇编器、函数库、调试器等
基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性,如擦后写、擦写粒度不对称、擦写
随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注
随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、
作为当前互联网最主要的传输层协议之一,TCP为大量的互联网应用提供数据包可靠传输服务。TCP性能直接影响互联网业务的服务质量,TCP数据传输性能瓶颈分析与优化一直来都是网络
在当今社会中国际化越来越明显,语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题,通过计算机来辅
近年来,在油气开发过程中,地震资料在开发井的设计中使用越来越广泛,地震资料中丰富的区块、测井等信息对油气开发起到了很好的指导作用。但是,在使用这些信息的过程中,由于对很多
第一原理计算是科学计算中最重要的一类计算。它以原子位置坐标为基本参数,通过平面波展开求解Kohn-Sham方程,得到精确的材料的光、电、磁等物理性质。然而其求解速度和求解规