大规模Web主题并行分析算法研究与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kekezhu99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web数据规模以几何级数增长。大规模Web主题分析,是面向海量Web数据,通过主题发现、综合摘要等算法,提取关键主题词和摘要段落,对Web大数据进行整体把握的过程,具有极强的应用价值。本论文着力于研究大规模Web主题分析。取得的主要成果包括:  1.提出基于单扫描增量聚类的并行主题发现算法。采用Map/Reduce并行框架,对主题发现过程并行实现。聚类过程采用改进的单扫描增量聚类方法,利用该方法算法复杂度低的优点,增量式的处理Web数据,同时克服传统单扫描增量聚类严重依赖输入顺序等缺点,适用于处理大规模Web数据。实验表明,基于单扫描增量聚类的并行主题发现算法能够有效地发现Web数据主题,找到恰当的主题词,并且具备处理Web大数据的能力。  2.提出基于主题的并行综合摘要算法。采用Map/Reduce并行框架,对自动综合摘要过程并行实现。摘要过程基于主题发现结果,对相同主题的文档群进行自动摘要,先进行单篇摘要,再进行综合摘要。当段落较多时,使用基于统计的摘要方法,当段落较少时,使用基于结构的摘要方法。在基于结构的摘要方法中,采用ROUGE-L相似度衡量段落之间的相似程度,考虑文本的上下文关系。实验表明,基于主题的并行综合摘要算法能够有效地抽取主题类的综合摘要,较为恰当的表述主题类的主要内容,并且具备处理Web大数据的能力。  3.设计并实现Web数据挖掘云服务平台。构建端到端的Web主题分析系统,集成网页爬取、解析、分词、词典生成、建模、主题分析、综合摘要的流程,提供方便的一键挖掘服务,使普通用户不需要复杂的配置即可运行主题发现任务流程。并且,在海量Web数据挖掘结果上并行计算主题的相似度,构建主题层级的语义地球,实现大数据可视化。平台已运行在Hadoop集群上,对外提供开放的云服务。
其他文献
由于人脸检测技术在很多场合有许多非常重要的应用,例如:机场里基于视频流的人脸识别、安全领域的门禁系统、数字图片检索等,在过去十年里,人脸检测一直是图像处理领域罩非常具有
恶意代码分析是提取恶意代码特征进而对恶意代码进行检测的基础和前提,因此它是当前信息安全领域所关注的一个重要课题。对于恶意代码分析,当前大多数的反病毒厂商还主要依赖于
草图交互是新一代计算模式环境中自然(非受限)人机交互的研究热点之一。由于手绘草图固有的模糊性特点,如何将非精确手绘草图转化为计算机可处理的精确信息成为草图交互的主
本研究以土壤重金属为研究对象,采用探索性统计和贝叶斯空间统计方法研究中山市土壤重金属污染情况,达到对中山市各镇的重金属污染进行综合分析和评价的目的,并有综合预警的现实
随着普适计算、传感器网络、互联网等领域的蓬勃发展,产生了一种新的数据模型——数据流。数据流中的数据有着持续不断到达、速度快、随时间变化、数据量巨大、无法预测等特点
近年来,日益严峻的公共安全形势有力地推动了智能视频监控技术的发展和应用。人的重现检测作为智能视频监控带有反馈机制的、组合式的分层框架中中间层的重要组成部分,有着深远
中医文化源远流长,荟萃几千年来众多中医学者的辛勤与智慧,积累了大量的中医文献资料和数据。如何应用现代科学技术手段,为中医理论的发展提供支持成为目前亟需解决的重大问
密码技术是信息安全技术的核心,包括密码设计和密码分析两个方面。在密码的设计与分析中,存在着许多复杂的搜索和优化问题。这些问题的提出和解决往往直接关系到密码体制和密码
在集成电路生产过程中,工艺偏差将使得一些芯片不可避免地产生工艺缺陷从而引起功能错误。为了保证产品质量,芯片测试始终占据着无可动摇的重要地位。随着特征尺寸的减小和设计
近年来,Web Services及其相关的SOA(Service—Oriented Architecture,缩写为SOA)技术获得广泛应用,通过集成以Web Services为代表的软什服务来构造面向服务的软件系统(Service—