【摘 要】
:
分布式信息检索是面向海量WEB信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIBCA)来对网页数据进行划分,并采用BloomFilter优化LIBCA算法的计算效率,在检索过程
【机 构】
:
中国科学院计算技术研究所,中国科学院研究生院
【基金项目】
:
国家重点基础研究发展计划(973计划);
论文部分内容阅读
分布式信息检索是面向海量WEB信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIBCA)来对网页数据进行划分,并采用BloomFilter优化LIBCA算法的计算效率,在检索过程中采用CORI集合选择算法和OKAPI BM25检索算法.基于最近3年的TREC WEB实验数据集,对比集中式检索、基于随机划分的分布式检索,实验结果表明,本文方法在P@10的指标上可达到甚至超过集中式检索的效果.效率方面的实验表明利用BloomFilter的LIBCA算法具有较高的划分效率,适合海量数据的处理.
其他文献
目的:观察依那普利和吲哒帕胺联合治疗高血压的临床效果和安全性。方法选取我院2012年1月至2013年8月收治的80例患者,对患者中2级原发性高血压患者采取口服依那普利和吲哒帕胺
采用流式细胞分析术和染色体计数法对辣椒花药培养再生株群体的染色体倍性构成情况进行了鉴定.显示了花药培养再生株中染色体倍性构成的多样性.观察到染色体倍性在不同检测组
民族舞剧的创作不能等同一般的舞剧,虽然它们都是以舞蹈为表现形式,都属于综合性舞台表演艺术.所不同的是,所谓民族舞剧必须具有自己本民族的风格特色,是用这个民族或这一区
近年来,坚持科学发展观,走内涵发展之路,以提升学校的综合实力,实现学校的可持续发展,已经成为加快学校发展和重要内容.为此,本文针对学校文化的内涵、作用及发展过程中所遇
图书馆学科化服务是以学科馆员为核心、以学科馆员的服务为主要代表形式的一种新的服务模式和服务机制.开展学科化服务是信息时代对高校图书馆可持续发展的必然要求.本文通过
目的探讨孕鼠营养异常对子鼠成年后胰岛素、瘦素抵抗的影响。方法 36只孕鼠随机分成低蛋白组(低蛋白饲料喂养)、高营养组(高营养饲料喂养)及正常营养组(普通饲料喂养),每组12
利用定性分析与定量研究相结合的方法,对浙江省的国内生产总值(GDP)与旅游业主要指标的统计数据建立数学模型,研究旅游经济与GDP的相关性,分析旅游经济对GDP的贡献率,探讨旅
叶绿体和线粒体是高等植物细胞内2种重要的细胞器.由于细胞质雄性不育(CMS)被认为是一种由线粒体基因编码的性状,因此,近10多年来,国内外研究者对线粒体基因组结构与功能、由
近几年不断发生的食品安全问题究其原因,根本在于我国农产品生产企业在以"公司+农户"模式的运作下,企业没有自主的原料基地,难以保证高质量的安全食品供给.企业只有建设自主
超分辨近场结构(super-RENS)技术通过在传统光盘结构中插入掩膜结构而实现近场超分辨,是目前最具实用化前景的超高密度光存储技术之一,其中掩膜层的近场光学特性是决定其光存