语义搜索若干关键问题研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:neckil77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在的Web(万维网)已经成为传统Web信息与语义网(Semantic Web)信息共存和交融的信息空间。近年来,这两种类型的信息都得到了爆炸式的增长。如何从这个海量的、异质的信息空间中快速、方便地找到需要的信息对人们的工作和生活具有重要的意义,同时又极具挑战。目前的商业搜索引擎已经能够满足人们大部分搜索需求,其搜索目标是传统的Web信息,搜索的技术针对的是传统Web信息组织的方式和特征。然而,伴随着语义网的发展,Web信息检索问题也在悄然发生变化。大量语义网文档的出现,使得语义网的搜索问题成为Web信息检索问题的重要组成部分。此外,语义网技术能够帮助计算机更加高效地处理Web信息,从而给人们改进Web信息的检索方式,提供更加有效的搜索服务带来了新的契机。   随着语义网的发展,语义搜索逐渐成为Web信息检索的一个发展方向。本文在现有工作的基础上,从三个方面进行了深入的研究:语义网文档的搜索,语义网实体的快速理解,以及利用语义网技术改进传统Web信息检索。论文的主要贡献包含下面三个部分:   (1)基于语义网数据组织的特征,提出了一种改进的语义网文档搜索方法。在文档分析和索引时能够保留语义网文档的结构信息。引入跨文档重用的信息,从而在构建词向量中加入更加完整的信息。此外,从查询相关的证据和文档的元数据两个方面提取文档片段,使得用户更方便地判断文档的相关性。在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升。   (2)为了帮助人们快速准确地理解语义网实体,提出了一种在开放环境下对实体数据进行组织和摘要方法。针对语义网数据的无序特性,提出一种自动聚类的方法,根据数据的主题对实体数据进行聚类。为了应对数据的可信度问题,从权威性维度上对实体数据进行分类。针对实体数据的大规模特性,提出实体数据摘要的方法,仅提取出重要的句子显示给用户。实验结果显示该方法能够有效地帮助人们快速理解语义网实体,在用户比较熟悉语义网数据模型的情况下,使用该方法能够提高20%左右的效率。   (3)以足球领域的图片搜索系统为切入点,探讨语义网技术与传统Web信息搜索的结合。提出一种领域对象自动识别技术,在对足球图片进行分析时自动标注其中的领域对象,使得基于领域知识库的语义搜索成为可能。此外,提出一种基于语义关联的语义搜索方法,并实现了一个直观易用的语义查询输入界面,从而能够支持相对复杂的信息需求。实验表明这种语义搜索方式能够很好地提升图片搜索的性能。
其他文献
随着数据库技术的成熟应用和Internet的迅速发展,人们利用信息技术生产和搜集数据的能力大幅度提高,使得从大量数据中挖掘出有用的信息或知识成为一个迫切需要解决的问题。正
黑片作为工业应用中重要的元器件,如何降低其产品质量检测的费用,提高检测效率,成为黑片缺陷检测的重要内容。然而黑片图像在采集和传输等过程中不可避免会受到各种噪声的干
随着计算机技术的不断发展,软件的规模越来越大,软件测试的作用越来越重要。对于测试数据自动化生成方法,目前虽然有一些方法被提出并使用,但由于其局限性,在实际中还没有完
人脸表情识别是一个涉及到模式识别、图像处理、人工智能等多学科的综合课题。所谓人脸表情识别是让计算机对人脸的表情信息进行特征提取分析,结合人类所具有的表情信息方面
近几年计算机网络发展呈现出从集中模式向分散自治模式发展的趋势,转变为可公共访问的,面向大量动态用户的开放网络。针对开放网络中传统安全技术难以解决的用户行为约束问题,学
BGP作为互联网的基础设施,提供了自治系统间的通信机制,在互联网运行中起着重要的作用。配置错误、设备故障、网络攻击等问题都能对BGP路由系统产生重大影响,进而危害整个互联网
无线传感器网络(Wireless Sensor Network,WSN)是由大量部署在监测区域内的具有数据采集、信息处理、无线通信等功能的微型传感器节点形成的自组织网络系统,是一种全新的信息获取
视景仿真是虚拟现实技术在实际应中的热门研究课题之一,其中包括对火焰、云雾、雨雪、沙尘、浪花等动态自然景物和现象的模拟与绘制,在气象预报、航空航天、装潢广告等领域有
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别主要分为人脸检测、特征提取和模
随着计算机技术和网络技术的飞速发展,计算机网络在人类社会各领域发挥着越来越重要的作用。由于自身存在的漏洞,计算机网络在给人们的生产生活带来便利的同时,也给网络攻击