基于结构链接分析的XML文档分类与聚类

来源 :北京大学 | 被引量 : 0次 | 上传用户：Fukuki

【摘要】

：

随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合

【作者】

：

王松林

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

信息检索数据挖掘文档分类程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合结构信息、链接信息与内容信息的XML文档分类和聚类技术,设计并实现了一种有效的XML文档分类和聚类系统。　　本文首先研究了XML文档的结构信息和链接信息的分析获取问题,通过抽取文档频繁子树和外部链接,分析了结构单元在文档类别(聚集)间的分布特点,论证了结构信息和外部链接信息对XML文档进行分类和聚类具有重要价值。针对XML文档中,标签过多、文档树层次结构过于复杂的问题,提出了通过机器学习方法对文档树剪枝的策略,并解决了文档结构抽取中子树重叠和冗余的问题;在外部链接信息分析方面,本文提出了基于PageRank算法计算XML文档与类别关联度的方法,优化了XML文档链接信息的权重,提高了分类与聚类的效果。然后,研究了利用文档结构信息、外部链接信息以及文档内容信息进行XML文档分类和聚类的方法。针对海量的XML文档聚类问题,本文提出了基于划分的局部迭代聚类的方法。本文还研究了多分类类别和频繁子树的筛选策略,以及利用网络搜索和WordNet词义扩充方法解决短文本信息量较少等问题。最后基于文档结构信息、链接信息以及内容信息的分析,本文利用SLVM模型设计并实现了XML文档集分类和聚类系统,在INEX2009和INEX2010年XML Data Mining Track评测的数据集上进行了实验,实验结果均高于评测中最好的参评结果。

其他文献

无指导与半指导的核心论元语义角色标注研究

语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研

学位

语义角色标注无指导法半指导法聚类核心论元

搜索引擎查询分类方法的研究与实现

查询意图被定义为查询背后的信息需求，正确分类用户的查询意图，能够帮助商业化搜索引擎优化检索结果，提供更加准确的检索服务。由于用户的查询　　关键词一般较短(平均长度2-3)，

学位

查询分类商业意图标签传播算法检索服务

一种面向UniCore体系结构的集成开发环境的设计与实现

软件开发是一个迭代的过程，通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具，包括编辑器、编译器、链接器、汇编器、函数库、调试器等

学位

集成开发环境UniCore体系结构微处理器嵌入式系统

面向固态盘的存储系统关键技术研究

基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性，如擦后写、擦写粒度不对称、擦写

学位

固态盘缓存系统软件设计硬件开发流水线式合并算法

海量全文数据检索系统中增量式结果缓存的设计与实现

随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注

学位

文档资源数据挖掘缓存替换程序语言

基于多目标决策的产品搜索系统的设计与实现

随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、

学位

多目标决策产品搜索离散选择模型特征选取用户生成内容电子商务

传输层性能诊断与优化

作为当前互联网最主要的传输层协议之一，TCP为大量的互联网应用提供数据包可靠传输服务。TCP性能直接影响互联网业务的服务质量，TCP数据传输性能瓶颈分析与优化一直来都是网络

学位

传输控制协议诊断技术性能优化设计理念

基于双模式融合的学生发音评价算法研究

在当今社会中国际化越来越明显，语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题，通过计算机来辅

学位

非母语学习发音评价双模态评分算法特征提取耦合隐马尔科夫

油藏储层量化描述与预测方法的研究和实现

近年来，在油气开发过程中，地震资料在开发井的设计中使用越来越广泛，地震资料中丰富的区块、测井等信息对油气开发起到了很好的指导作用。但是，在使用这些信息的过程中，由于对很多

学位

油气开发储层预测支持向量机线性判别地震属性模式识别

材料计算大规模异构并行算法研究与实现

第一原理计算是科学计算中最重要的一类计算。它以原子位置坐标为基本参数，通过平面波展开求解Kohn-Sham方程，得到精确的材料的光、电、磁等物理性质。然而其求解速度和求解规

学位

材料性能第一性原理计算软件开发异构环境并行处理局域密度近似法线性标度算法

基于结构链接分析的XML文档分类与聚类

其他学术论文