Web信息获取技术研究与实现

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:niuniu04
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW已经发展为拥有近一亿用户和大约400万站点,3亿页面的巨大分布式信息空间,且其信息量仍以指数形式在飞速增长。但由于它上面的信息具有开放性、动态性和异构性使得人们很难快速地从WWW上获得所需信息。搜索引擎的出现使人们从大量信息资源的集合中找到与给定查询请求相关的、数目恰当的资源子集成为可能。本论文的主要工作是对搜索引擎技术进行研究并对中文搜索引擎加以设计和实现。 本文首先对搜索引擎的发展现状进行了介绍,对搜索引擎的工作原理及关键技术进行了分析,然后说明了中文搜索引擎的设计与实现并介绍了实现中用到的相关技术。 本文的主体是使用Java语言和多线程技术对搜索引擎进行设计与实现,在实现网页数据库时采用了JDBC技术,同时对中文信息处理也进行了一定的研究。 本文最后总结了完成的工作,以及日后可以改进和完善的地方。
其他文献
该文提出了柔性软件系统的概念,研究并实现了一个柔性报表系统.此柔性报表系统使得信息系统的报表输出更加灵活,满足用户多层次、多用途和个性化的需要,具有很好的应用前景.
摘 要ITU-T G.729建议是国际电信联盟于1996年提出的速率为8Kbps的语音压缩编码的标准。本文详细讨论了多路G.729a语音编解码器在一片DSP处理器TMS320C6202上实时实现的
网络编码是通信领域的一个研究热点,它可以提高网络可靠性和数据传输效率,主要应用于广播、多播和单播中。而把网络编码应用于无线传感器网络汇播机制的研究,目前还处于理论分析
在过去的几十年中,高斯混合模型广泛且成功的被用于说话人识别的研究中。为了处理动态增长的数据集和GMM初始化问题,以及在少量训练数据下得到高效的学习结果,本文提出一种自
本文针对生物仿真的图像分割算法——LEGION的半自动化和仅能分割灰度图像这两点不足,分别提出了改进方法。首先,本文引入图像分割效果的评价函数,提出了参数自动确定的LEGION算
该文从仿真的可信度和逼真度角度出发,从动力学建模、坦克火控解算算法、综合防护性能表征、视景仿真、声音仿真等方面,对分布式虚拟战场环境中的坦克仿真系统进行了深入研究
“测井数据库系统”是CNPC石油勘探开发应用软件“开发测井多井评价软件开发”的子课题,主要功能是对测井数据进行规范化管理.该文从大型数据库的实际应用出发,理论联系实际,
为了克服传统的基于文字检索存在的主观性、低效率等缺点,人们开始强调基于内容的检索技术(CBR).考虑到信息对于信息获取的重要性,该文主要研究了基于内容的图像存 储图像存
传统的集中式备份解决方案依赖IP网络作为其数据路径,这样,仅传输的数据量就会使带宽处于饱和状态,结果备份周期经常超过预先计划好的备份时间。为解决集中式备份中存在的问题,计
该文提出了一个成熟的建立在IA架构的普通PC服务器上和Unix操作系统上的大容量分布式电子邮件系统方案.该系统具有结构简练,移植容易,伸缩性强,可扩展性好,支持协议广泛,响应