云环境下基于数据冷热预判模型的关键词主题分类搜索研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yuanmm123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今随着信息技术的日新月异,快速发展,人们对信息的渴望也是与日俱增。面对杂乱的海量数据,如何能从中快速得到用户想要的信息,是当前亟待解决的问题。所以对海量数据进行有效的分类及搜索就成为了研究的热点。随着科学技术的不断发展,近年来已经产生了一种新的计算模式:云计算。云计算因其具有超大规模,可虚拟化,良好的通用性,高扩展性,相对廉价等特性,越来越多的数据及应用服务都开始运用这个平台。对云计算系统内的数据可以利用平台本身的优势,令其相较于传统的数据管理模式在各个方面都有很大程度上的提高。所以人们把搜索技术也逐渐转移到分布式的新型平台上进行构建,逐渐取代以往较为集中的方式。本文的主要研究工作:(1)首先,针对目前杂乱网页信息不能准确快速找到与搜索主题尽量相关数据的问题,本文依托于改进的网页排序算法(即基于经典的PageRank算法的优化),以期望能够获得与搜索主题较为相近的数据信息。(2)接着,对于得到的大量网页信息,通过预处理转化为较为简单的文本格式。针对目前数据分类存储中未考虑数据冷热直接统一存储的情况,本文中构建一个数据冷热预判模型将这些数据分为冷热两大类分开存储。在冷热分类的基础上再进行基于主题类别的分类,以便于之后对这些数据进行索引的构建。(3)为了完成基于主题类别分类,针对TF-IDF算法在某个特定应用场景下不具备很好的主题关键词提取功能,本文通过改进的TF-IDF关键词提取算法进行主题关键词的提取。特别的,实际生活中常出现一些临时突发的信息,但这些信息往往不能简单的通过改进TF-IDF主题关键词提取算法进行提取。针对该算法考虑不充分的情况,本文提出了一种适用于临时突发信息数据的主题关键词提取算法。(4)最后,为了进一步提高搜索性能,针对以往数据量非常大传统索引构建相对耗时的情况,本文在原有索引技术上进行分布式的改进,通过Hadoop平台实现索引的并行化。利用节点分配存储的原理先将数据根据不同的冷热类别进行分开存储,然后基于冷热分区存储再将两分区内具有类似主题类别的数据存储为一类。根据不同节点上不同的数据主题,把倒排索引运用于分布式的结构中,建立基于关键词主题分类的分布式倒排索引,从而实现提高搜索的效率的目的。
其他文献
语音识别是一种最为理想的人机通信方式,随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业。语音识别既是理论问题,也是一个工程化问题。它综合多学
摘要分布式存储系统的应用已经越来越广泛。在存储系统中,可靠性是关键问题之一,保障数据的可用性必须要求存储系统提供多种方式来实现高可靠性。中文农业搜索引擎CFSEA是东
自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利
多媒体的不断普及,数字视频已经与我们的生活密不可分,它已经成为了我们获取信息的一个重要手段。随着技术的不断进步,当今视频画面的质量变得越来越好,分辨率也越来越高,这
梯形图(Ladder Diagram)是IEC61131-3标准定义的五种标准编程语言之一,由于梯形图语法简单、结构规整以及采用图形化的编程方式,使得其深受工控领域编程人员的喜爱,现已成为工业
随着互联网的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题也日益严重。邮件信誉机制作为一种新兴手段在垃圾邮件过滤领域中发挥着重要作用。然而,由
随着互联网技术的发展,人们对于网络服务的要求越来越高,数量也越来越巨大,传统客户/服务器应用构架受到了巨大的挑战。因此在当前的技术条件下,如何构建大规模、高可扩展、
桥梁远程监测是利用有线或无线通信方式实现桥梁状态实时远程监测的方法,它改变了传统的以人工为主的监测手段,大大提高了桥梁监测的自动化程度,提高了对桥梁结构损坏和突发
随着物流产业的发展,传统的第三方物流在信息共享和资源整合上开始显得力不从心,于是第四方物流应运而生。要在第三方物流的基础上构建第四方物流管理系统,如何实现管理系统
近几年随着科技的发展,Internet技术广泛的被应用,具有松耦合、异步和多点通信的等特点的发布/订阅系统(pub/sub系统)满足了分布式系统在应用范围和应用规模等方面改变的需要