论文部分内容阅读
随着互联网的快速发展,Web数据规模以几何级数增长。大规模Web主题分析,是面向海量Web数据,通过主题发现、综合摘要等算法,提取关键主题词和摘要段落,对Web大数据进行整体把握的过程,具有极强的应用价值。本论文着力于研究大规模Web主题分析。取得的主要成果包括: 1.提出基于单扫描增量聚类的并行主题发现算法。采用Map/Reduce并行框架,对主题发现过程并行实现。聚类过程采用改进的单扫描增量聚类方法,利用该方法算法复杂度低的优点,增量式的处理Web数据,同时克服传统单扫描增量聚类严重依赖输入顺序等缺点,适用于处理大规模Web数据。实验表明,基于单扫描增量聚类的并行主题发现算法能够有效地发现Web数据主题,找到恰当的主题词,并且具备处理Web大数据的能力。 2.提出基于主题的并行综合摘要算法。采用Map/Reduce并行框架,对自动综合摘要过程并行实现。摘要过程基于主题发现结果,对相同主题的文档群进行自动摘要,先进行单篇摘要,再进行综合摘要。当段落较多时,使用基于统计的摘要方法,当段落较少时,使用基于结构的摘要方法。在基于结构的摘要方法中,采用ROUGE-L相似度衡量段落之间的相似程度,考虑文本的上下文关系。实验表明,基于主题的并行综合摘要算法能够有效地抽取主题类的综合摘要,较为恰当的表述主题类的主要内容,并且具备处理Web大数据的能力。 3.设计并实现Web数据挖掘云服务平台。构建端到端的Web主题分析系统,集成网页爬取、解析、分词、词典生成、建模、主题分析、综合摘要的流程,提供方便的一键挖掘服务,使普通用户不需要复杂的配置即可运行主题发现任务流程。并且,在海量Web数据挖掘结果上并行计算主题的相似度,构建主题层级的语义地球,实现大数据可视化。平台已运行在Hadoop集群上,对外提供开放的云服务。