论文部分内容阅读
当今随着信息技术的日新月异,快速发展,人们对信息的渴望也是与日俱增。面对杂乱的海量数据,如何能从中快速得到用户想要的信息,是当前亟待解决的问题。所以对海量数据进行有效的分类及搜索就成为了研究的热点。随着科学技术的不断发展,近年来已经产生了一种新的计算模式:云计算。云计算因其具有超大规模,可虚拟化,良好的通用性,高扩展性,相对廉价等特性,越来越多的数据及应用服务都开始运用这个平台。对云计算系统内的数据可以利用平台本身的优势,令其相较于传统的数据管理模式在各个方面都有很大程度上的提高。所以人们把搜索技术也逐渐转移到分布式的新型平台上进行构建,逐渐取代以往较为集中的方式。本文的主要研究工作:(1)首先,针对目前杂乱网页信息不能准确快速找到与搜索主题尽量相关数据的问题,本文依托于改进的网页排序算法(即基于经典的PageRank算法的优化),以期望能够获得与搜索主题较为相近的数据信息。(2)接着,对于得到的大量网页信息,通过预处理转化为较为简单的文本格式。针对目前数据分类存储中未考虑数据冷热直接统一存储的情况,本文中构建一个数据冷热预判模型将这些数据分为冷热两大类分开存储。在冷热分类的基础上再进行基于主题类别的分类,以便于之后对这些数据进行索引的构建。(3)为了完成基于主题类别分类,针对TF-IDF算法在某个特定应用场景下不具备很好的主题关键词提取功能,本文通过改进的TF-IDF关键词提取算法进行主题关键词的提取。特别的,实际生活中常出现一些临时突发的信息,但这些信息往往不能简单的通过改进TF-IDF主题关键词提取算法进行提取。针对该算法考虑不充分的情况,本文提出了一种适用于临时突发信息数据的主题关键词提取算法。(4)最后,为了进一步提高搜索性能,针对以往数据量非常大传统索引构建相对耗时的情况,本文在原有索引技术上进行分布式的改进,通过Hadoop平台实现索引的并行化。利用节点分配存储的原理先将数据根据不同的冷热类别进行分开存储,然后基于冷热分区存储再将两分区内具有类似主题类别的数据存储为一类。根据不同节点上不同的数据主题,把倒排索引运用于分布式的结构中,建立基于关键词主题分类的分布式倒排索引,从而实现提高搜索的效率的目的。