论文部分内容阅读
提出一种比较XML文档这种半结构化数据流的模糊技术,并在此基础之上进行分类,主要包括基于结构的文档分类以及基于内容的文档分类.该方法建立在XML文档片段的平面编码基础之上,将XML文档表示成模糊包的形式,使用比较函数,计算出它们结构的相似性.在对XML文档进行基于结构的分类以后,可以进一步考虑其内容,以获得更细的分类.