大规模公开与内部数据融合方法及其在学术搜索中的应用

来源 :科研信息化技术与应用 | 被引量 : 0次 | 上传用户：fredzhuca

【摘要】

：

互联网中数据、信息、知识资源呈现指数级增长,获取这些公开或内部资源的手段分别是传统搜索引擎和站内搜索,这种分离的获取手段造成了信息搜集的不全面,因此对数据融合方法

【作者】

：

周佳罗铁坚程福兴王竹张新刘振清魏明利李大春

【机构】

：

中国科学院研究生院信息科学与工程学院,中国科学院研究生院网络信息中心,

【出处】

：

科研信息化技术与应用

【发表日期】

：

2011年03期

【关键词】

：

数据融合方法外部数据学术搜索系统集成站内搜索网页信息异构数据源应用模型大型机构信息搜集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网中数据、信息、知识资源呈现指数级增长,获取这些公开或内部资源的手段分别是传统搜索引擎和站内搜索,这种分离的获取手段造成了信息搜集的不全面,因此对数据融合方法提出了新的挑战。现有的数据融合方法不灵活、集成复杂度高、信息缺失度高。本文提出一种新型的内外数据融合方法,集成自主开发的资源获取组件和成熟的商用服务模块,并通过构建一个应用模型来搭建面向大型机构的学术搜索引擎、形成一个可扩展性强、实时性强、抽取精度高的融合内外部数据的应用平台。该项工作已成功地收集了244个中国科学院所属单位以及相关单位的586,572个网页,34,737个视频,47,390篇论文,并为中国科学院广大师生提供学术资源检索服务功能。 The exponential growth of data, information and knowledge resources in the Internet, and the means of obtaining these public or internal resources are traditional search engines and in-station search respectively. This means of separation has led to the incomplete collection of information. Therefore, the data fusion method New challenges. The existing data fusion methods are not flexible, with high integration complexity and high information loss. This paper presents a new method of data fusion both inside and outside, integrating self-developed resource acquisition components and mature business service modules. By building an application model to build an academic search engine for large organizations, a scalable and real-time Strong, high precision extraction of internal and external data integration application platform. This work has successfully collected 586,572 web pages, 34,737 videos and 47,390 essays from 244 Chinese Academy of Sciences affiliated institutions and related institutions and provided academic resource search service functions for a large number of Chinese Academy of Sciences teachers and students.

其他文献

中国电力价格管制的政策分析

作为自然垄断行业，电力产业如何适应社会主义市场经济发展规律要求，建构合理的价格形成机制？党的十六大和十六届三中全会明确提出:应在自然垄断行业引入市场竞争机制，并且要求政

学位

电力企业价格管理市场竞争可持续发展

城市公用事业民营化问题研究

城市公用事业是城市重要的基础设施，与城市人民生活密切相关。我国的公用事业长期由国家和城市财政投资兴办，采用区域垂直一体化结构。地方公用事业管理部门及其所属国有企业（大

学位

城市建设公用事业民营化进程政府监管

中药复方脊髓康促进脊髓损伤大鼠神经功能恢复的实验研究

目的验证中药复方脊髓康对脊髓损伤大鼠神经功能的作用,尝试探讨其对星形胶质细胞神经胶质原纤维酸性蛋白(Glial fibrillary acidicprotein,GFAP)表达的影响.方法采用改良A

期刊

脊髓损伤脊髓康星形胶质细胞神经胶质原纤维酸性蛋白信使核糖核酸

六经辨证在癌因性疲乏治疗中的应用

癌因性疲乏属于中医“虚劳病”范畴,本文根据虚劳病的诊治,探讨六经辨证在癌因性疲乏中的辨证思路.笔者团队认为癌因性疲乏病机上总属“虚”和“郁”,因气血阴阳的不荣与不通

期刊

癌因性疲乏六经辨证虚劳病经方虚郁

2020 AAO-HNS“梅尼埃病临床实践指南”专家解读

梅尼埃病(Menieres disease,MD)作为一种发作性眩晕综合征,发病率约50/10万～200/10万,主要为40～60岁的患者.从1861年开始认识梅尼埃病至今,AAO-HNS诊断标准经历1972、1974、198

期刊

社区警务与社区公共安全产品的有效供给

社区是指聚居在一定地域范围内的人们所组成的社会生活共同体。目前城市社区的范围一般是指经过社区体制改革后作了规模调整的居民委员会辖区。根据国内外大多数社会学家对社

学位

社区警务公共安全产品供给生活质量

《海洋与文明》的课程建设与探索

《海洋与文明》课程设置的意义是提高涉海专业学生对人类开发和利用海洋的历史认识,增强学生担负国家建设“海洋强国”历史重任的责任意识.课程内容主要从人类海洋史的发展角

期刊

海洋文化文明发展课程建设

《收藏界》(2012年01期-12期)目录

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

观泉老董目录石鲁浅绛青白瓷咸丰重宝瓷器玉器铜元

国家审计均衡发展战略研究

我国自1982年建立国家审计监督制度以来，国家审计得到长足发展，受到社会各界普遍关注，已经成为促进政治、经济和社会健康发展的一支重要力量。在我国全面建设小康社会、加快推进

学位

国家审计均衡发展监督制度战略规划

有愧于雪的纯洁(外一首)

期刊

大规模公开与内部数据融合方法及其在学术搜索中的应用

其他学术论文