面向网络文学的垂直搜索引擎的研究与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:z444567059
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势变的越来越严峻。所以迫切需要一个更优异的搜索服务,以提高搜索效率和保护网络作品版权。搜索引擎质量的好坏,对搜索引擎的使用用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标。对页面进行重要性评估并按重要性排序是搜索引擎排序算法要深入研究的最重要的问题之一。垂直搜索引擎应运而生,它把具体专业与搜索引擎结合起来,为使用者提供了更高的质量和更优质的服务。本文研究的主要内容是建立在网络文学发展的基础上,本文研究的核心技术是建立在搜索引擎发展的基础上。通过研究课题的背景和意义,并深入了解搜索引擎的发展史、垂直搜索引擎的技术现状以及搜索引擎未来的发展趋势等知识,为本课题的研究与实现奠定了良好的理论基础。本文首先讨论了垂直搜索引擎的概念和工作流程,在深入研究垂直搜索引擎原理的基础上,对于垂直搜索引擎所用到的核心技术,如网络蜘蛛、网络蜘蛛搜索策略、信息抽取技术、中文分词技术等,和垂直搜索引擎所需要的搜索引擎开源框架Nutch,进行了详细的介绍。其次,分析并研究了搜索引擎领域经典的两种网页排序算法:PageRank算法和HITS算法,联系当前互联网研究现状并结合所研究的课题方向,针对传统的PageRank算法存在的主题飘逸现象、网页权值分配不合理、偏重旧网页等现象,结合网页内容之间的相似度信息、网页页面结构和网页产生的时间等提出了一种改进的页面排序算法。改进算法加入了时间衰减因子,减少了主题漂移现象的发生,提高了查询的准确率。最后,本课题结合搜索引擎开源框架Nutch和改进后的网页排序算法,设计并实现了基于网络文学为主题的垂直搜索引擎原型系统。通过和主流搜索引擎的对比以及数据测试和仿真验证了系统的可行性与优越性。
其他文献
二维条形码在物流运输、身份识别、广告行销和电子商务等很多方面具有广泛的应用前景。但由于其格式多变并且背景复杂,目前尚没有一种很好的定位技术可以在多种材料(如塑料、
安全可靠的数据传输和快速有效的数据恢复是目前无线传感器网络(Wireless Sensor Networks, WSN)所面临的最大挑战。作为无线传感器网络应用的关键技术,无线传感器网络中的编
人体运动分析技术由于其广泛的应用前景成为计算机视觉领域研究的焦点之一。目前,对于运动人体的研究主要集中在运动检测、人体跟踪和简单行为的识别等问题上。如何准确且高
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅
校园"一卡通"在现代大学中的应用非常广泛。其典型应用之一就是教职员工的上下班考勤。在东华大学,教职员工每天上下班基本上都乘坐校车,所以在校车上部署了用于考勤的校园"
建立分布式协作开发环境是实现设计工具之间进行交互与数据共享、提高设计与开发效率的一种重要手段。不同工具所使用或产生的数据往往存储在不同的关系数据库中,为使这些数
JPEG2000是新一代的图像压缩标准,其中离散小波变换和EBCOT是JPEG2000的两个核心算法。由于这两个算法的计算量很大,内存使用量也很大,因此在许多应用系统中需要对算法进行改
本文引出两个必将在资源库建设领域中流行的理念:学习对象和拆分重构,以此作为研究信息技术课程资源开发的切入点和创新之处。学习对象是一种可重用的数字化教学构件,作为面
随着半导体工艺的进步,以及单处理器所碰到的物理极限和功耗等无法逾越的障碍,以多核处理器为代表的先进体系结构已经逐渐成为提高处理器性能的主要途径。多核处理器在一个芯片
近几年来,随着电子通信技术的飞速发展,特别是无线通信技术的迅速普及和半导体芯片技术的不断成熟,短距离无线通信技术已越来越受到大家的重视。蓝牙(Bluetooth)技术以其低成