基于频繁项集的海量文本聚类研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cheqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的自动化聚类是文本数据的分类处理和自然语言处理中的一项关键技术,在文本文献的自动分类中也是一项非常重要的应用。近代以来,大量的科技文献的的不断涌现,也导致文本聚类过程中不断的出现新问题。随着科技的快速发展,科技文献的数量已经呈爆炸式的增长,如此大规模的海量文本分类的自动聚类对时间空间方面都对聚类算法和相应的硬件措施提出了极大的挑战。此外,现有聚类问题,类的边界划分和归类的定义十分模糊,并且聚类结果中有极大的不确定性。本文结合关联分析的频繁项集算法、谱聚类算法和分布式计算技术,旨在提高海量文本聚类的效率和准确度,解决海量文本的快速准确聚类问题,进而解决海量科技文献的自动聚类的问题。本文的主要工作如下所示:l、首先对文本聚类的现有成熟算法和关键技术进行了介绍分析。详细阐述了文本数据的分词、频繁项集生成和聚类中文本数据的表示形式等数据预处理技术。然后对传统的文本聚类算法和关联分析算法进行了相应的学习和研究,并研究了在文本聚类过程中关联分析的相应的应用。2、建立起了基于频繁项集的海量文本聚类的系统模型。该模型的建立使用了文本的关联分析处理方法,在关联过程中进行了并行生成频繁项集的算法改进,并使用文本的频繁项集应用到了聚类过程中相似度判定上,提高了聚类结果的准确性。同时,聚类过程中,通过引入最大频繁项集的概念,进行文本数据的匹配,能够快速准确的定位簇类个数及簇类边界。然后针对海量的文本聚类的大数据量特征,设计出了基于MapReduce框架的分布式并行文本聚类的算法,设计了针对该问题的海量文本聚类算法。3、实现过程中,该算法架构在云计算平台Hadoop的环境下,通过集群节点进行并行的文本聚类,成功的应用于某单位的文本聚类项目中,通过对系统的相应压力和性能测试得出,本文提出的聚类算法有着良好的运算结果。
其他文献
水文时间序列关联规则的挖掘是水文时间序列数据挖掘的一个分支,也是水文领域研究的难点。此问题的解决对区域水文的周期性分析、水文预报等有着重要的意义。由于水文数据量大
随着数字计算机技术的迅猛发展,数字图像处理领域己得到生机勃勃的发展,其中包括医学,天文学,生物学及工业等领域。数字图像的噪声主要来源于图像获取(数字化)和传送过程中。噪声
随着信息技术的发展和深入研究,人们越来越多的利用计算机来获取和处理各种信息。图像因其信息量大和表现直观的优点在近年来得到了广泛的应用,在多媒体技术中占据着重要的地位
旅行商问题(Traveling Salesman Problem,简称TSP问题)是组合数学中一个古老而又困难的问题。动态多目标TSP问题则是近年提出的在TSP问题上发展起来的新问题,它既有动态优化问
随着信息栅格的引入和传感器技术的应用,未来的指挥自动化系统将更加复杂,系统对设备、软件和环境等更加依赖,指挥自动化系统的体系结构将发生根本性变化。为使指挥自动化系统在
持久性指对象的生存特性,如果对象的生存期跨越程序的执行期则称该对象具有持久性。具有持久性的对象被称为持久对象,使对象具有持久性的技术被称为对象持久化技术。对象持久化
不断进步的半导体工艺和不断变化的应用需求一直是推动微处理器发展的主要动力。一些工艺技术如缩小器件尺寸、降低工作电压和提升工作主频,在提高处理器性能的同时,却使得处理
监督学习是机器学习领域研究得最多、应用最为广泛的一种学习框架。在该学习框架下,每个对象由单个示例表示并对应于单个概念标记。一股认为,基于传统监督学习框架描述的学习问
客运专线运营调度系统是客运专线运营管理、调度指挥和列车运行控制的中枢,而列车跟踪定位系统是客运专线运实现安全、正点、高效和运力资源有效利用的重要保障。本课题的目标
随着软件技术的不断发展,软件的应用已涉及到方方面面、各行各业,软件的规模与复杂性也不断增大。普适计算、自主计算等新型计算模式的出现,使软件面临的挑战也越来越多:软件