基于Heritrix维吾尔信息搜索引擎的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户：yh603469940

【摘要】

：

新疆互联网的起源可以追溯到1993年X.25网络的成功建设。经过近20年的发展,新疆互联网网络规模迅速扩大,新疆少数民族语言的Web网页数量呈现指数级的增长,所以针对维吾尔搜索

【作者】

：

赵永霄

【出处】

：

新疆大学

【发表日期】

：

2004年期

【关键词】

：

维吾尔语搜索引擎 Lucene 网络爬虫主题敏感算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

新疆互联网的起源可以追溯到1993年X.25网络的成功建设。经过近20年的发展,新疆互联网网络规模迅速扩大,新疆少数民族语言的Web网页数量呈现指数级的增长,所以针对维吾尔搜索引擎的研究越来越受到人们的关注。本文首先介绍了通用搜索引擎和主题搜索引擎的概念及相关的技术。在分析了不同主题爬虫所存在问题的基础上,编写了一种基于增量同生主题模型的维吾尔文网络爬虫,对主题敏感爬行算法进行了改进。总结起来,本文主要的工作可以归纳为以下几点。1.主题相关度判定算法的改进对几种相关度判断算法进行了探讨,编写了一种基于增量同生主题模型的维吾尔文网络爬虫,它在爬行的过程中不断利用相关度高的锚文本补充关键词主题特征向量库,用关键词增量主题特征向量库描述关键词的应用场景、语境。减少了不相关网页的下载量,提高了主题爬虫的抓取精度。2.网页优先级算法改进探讨分析目前使用较多的PageRank算法、hilltop算法、hits算法的优缺点,我们提出了 IC_Topic Sensitive PageRank算法对原始PageRank算法进行改进,该算法考虑了网页之间的相互链接关系,并且使用增量主题特征向量库描述应用语境来确保网页与主题的相关性。并对IC_Topic Sensitive PageRank进行理论分析,对今后维吾尔网页优先级计算具有一定的参考意义。3.主题搜索引擎系统的实现我们利用java实现多线程的维吾尔主题网络爬虫来收集网络信息资源;利用MySQL来建立信息数据库,保存分析后的网络信息;利用Lucene为收集的本地信息资源建立独立的索引库,并且提供搜索服务;使用DWR和servlet技术编写用户界面和动态生成搜索结果页面;使用Tomcat5.5本地服务器调试整个系统,并提供Web服务。最后整个系统通过测试实现了预期的搜索目的,基本满足了设计需求。

其他文献

冲击荷载作用下拱与自由梁瞬态动力响应研究

学位

PSD-95/nNOS解偶联剂ZL006类似物的设计合成与药理活性评价

缺血性脑卒中是严重危害人类健康和生命安全的常见疾病。当发生缺血性脑卒中时,N-甲基-D-天冬氨酸受体(NMDAR)被过度激活,从而激活其下游的信号通路,导致NO分子大量释放,从而

学位

神经保护剂NMDAR/PSD-95/nNOS解偶联剂合成

多西紫杉醇衍生物10j体外抗人前列腺癌PC-3细胞的作用机制研究

紫杉醇是美国北卡罗莱纳州三角研究所的Wall博士和Wani博士于1967年发现,用于治疗各种癌症,如乳腺癌、肺癌、肝癌和宫颈癌等,目前是世界上最重要的抗癌药物之一。多西紫杉醇

学位

Smac/DIABLO生存素有丝分裂凋亡多西紫杉醇衍生物10j

基于极化码的车对地安全数据可靠传输研究

极化码作为一种新兴的信道编码,编译码复杂度低,并被证明在理论上可达香农极限。因此一经提出,就成为国内外学者的研究热点。基于极化码的优越性能,本文考虑将其应用于铁路下

学位

极化码信息位选择SCL-SC译码算法车对地通信

面向动态窃听的物理层安全策略设计

随着科学技术的不断发展,无线通信在人们的日常生活中被广泛地应用。无线信道在为用户提供信号接入便利性的同时,由于其自身广播特性和信号叠加特性,使之容易受到来自恶意用

学位

干扰策略运动窃听者安全风险预测功率分配干扰节点选择物理层安全

靶向于雄激素受体的1-乙基吡唑衍生物的设计、合成及抗肿瘤活性研究

目前,肿瘤已经是危害人类健康的第一大疾病,癌症的死亡率在最近20年呈上升之势,当前已经排名第一位,前列腺癌是最常见的男性恶性肿瘤,死亡率仅次于肺癌居第二位,预计在不久的

学位

前列腺癌雄激素受体信号传导通路AR拮抗剂吡唑

反腐政策对国有上市公司并购重组绩效影响的实证研究

自十八大以来,以习近平同志为领导的党中央在全国范围内开展了影响广泛,效果显著的反腐倡廉活动。伴随着近年来我国并购重组市场的迅速发展,反腐政策的推行为研究其对于上市

学位

反腐并购重组企业绩效公司治理国有上市公司

基于环醚类化合物不对称烷基化的研究

苯并吡喃结构和苄醚结构是很多药物和天然活性产物的基本结构,若能建立一种条件温和代价又小的方法来达到合成各种相关天然活性产物和药物的方法,将此方法应用于各种天然活性

学位

苯并吡喃交叉脱氢偶联不对称异色满

智慧协同路由系统接入认证机制研究

智慧协同路由系统是一种基于多链路协同传输技术的高速移动通信解决方案,当前,主要为高速铁路提供网络接入服务,支持异构网络协同传输和频繁切换。复杂网络环境下需要认证机

学位

智慧协同路由系统认证机制异构网络多链路切换

基于KMV模型的地方政府债务信用风险研究

自分税制改革以来,我国地方政府一方面面临着巨大的公共设施建设的资金需求,另一方面受到原预算法等法律法规对地方政府自主举债的限制,这就导致了我国地方政府财权与事权的

学位

地方政府债券信用风险KMV模型

基于Heritrix维吾尔信息搜索引擎的研究

其他学术论文