基于语义的智能Web挖掘技术研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:flash_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:目前,基于语义的Web挖掘技术结合了语义Web与Web挖掘两个领域,并且在一定程度上促进了各自的发展。本文介绍了语义网与Web挖掘、智能代理相关概念的体系构造,并且提出了基于语义的Web挖掘信息体系模型構建智能采集体系的代理框架,通过分析表明该体系模型在一定程度上提升了信息获取的智能水平。
  关键词:语义;web挖掘;智能技术
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0147-01
  1研究概述
  Web挖掘与传统数据挖掘不同,能够有效挖掘互联网上非构造化异构Web文档集合。Web挖掘的内容的类型通常是内容、构造挖掘与使用记录挖掘。
  伴随社会经济与相关资料相关技术的全面发展,搜索活动已被整合到社会经济的各个角落。相关资料搜索产业作为国内外蓬勃发展的产业,已成为社会经济体系的重要组成部分。相关资料搜索行业具有广泛的工作范围,如政策搜索、管理搜索、工程搜索、相关技术搜索、专业搜索等。各类搜索活动都体现了现代搜索的重要功能之一——科学决策。但是,伴随大数据时代的到来,相关资料的存在方式发生了巨大的变化,数据结构与传输方式多样化的多样性,使得传统的相关资料搜索服务,客户满意度低,自发化程度不高,难以满足组织与个人的需求。丰富的知识元素与智力是隐藏在巨大而多样化的相关资料背后的,但却没有及时发现与有效利用,这严重影响了相关资料搜索活动的效率。本文在观察解析文本与网络语义智能搜索服务模式与系统体系结构、文本与网络语义观察解析方法与人工智能相关技术在搜索服务中的应用的基础上,提出了提高搜索服务智能化水平的建议。
  2在多主体框架下构建信息智能获得体系模型
  在文本与Web语义观察解析基础上构建对象本体知识元素库。经过自然语言处理,并将非结构化文本数据观察解析为可操作的相关资料,使用结构化文本数据中的数据挖掘相关技术与工具提取相关知识元素,结合机器学习与自然语言处理相关技术相结合,实现了基于公理/规则的自发对象本体学习,并构建了领域对象本体。基于对象本体知识元素基础构建,将对象本体知识元素运用到领域知识元素的形式化,明确地对资源深度组织与利用,基于知识元素库的实现,以提供语义支持;基于对象本体知识元素库对文本与Web资源的语义注释,经过对目标文档的语义标注自发分类索引,实现网络资源与域对象本体的匹配映射。
  代理是一种智能软件实体,能够在特定的环境中与相关的代理进行通信。代理人通常拥有自主权、社会性、主动与被动的反应能力、自我适应能力与机动性。
  基于Web挖掘与语义Web的理论,利用智能代理技术建立了信息智能采集体系模型(agbase-basedsem iantic-ieb),并且对其进行了分析。这个体系模型包含了以下如图1所示。
  基于对象本体知识元素库的交互指导模式如图所示。观察解析使用者的初始需求,建立自发启发式与规则,智能地引导使用者索引相关资料,实现使用者需求挖掘;在过程中动态交互,不断使用对象本体知识元素库推论,使用自然语言观察解析相关技术,结合对象本体知识元素库,实现使用者的自发解析与查询扩展,使使用者在索引相关资料问题的过程中自发识别、诊断、交互搜索,设置使用者问题与搜索系统相关阈值,进行边界筛选来解决问题;经过知识元素管理、积累与动态更新搜索服务知识元素、相关技术与流程,搜索服务伴随使用者、资源与相关技术的变化而发展。建立搜索与转发机制,及时搜索与解决系统不能解决的问题。
  对象本体代理的主要任务是维护对象本体库,以更新与共享对象本体知识元素。对象本体代理使用对象本体的语义知识元素,并扩展查询请求,即语义处理,语义过滤与结果集群处理是为了提高返回相关资料的相关性。我们还能够利用Web挖掘相关技术来辅助对象本体论学习来丰富与扩充对象本体论数据库。
  使用者代理与对象本体代理与索引代理进行交互,以完成使用者的查询请求的提交、概念提取与返回结果的可视化,以及使用者的评价与反馈。当使用者代理接收到使用者的查询请求时,它使用对象本体代理来执行语义扩展与其他处理,然后将处理过的查询请求发送给索引代理以获取相关资料。使用者代理处理返回的结果并执行可视化处理,同时学习使用者的反馈与评估。
  RDF数据库主要是从数据源中存储相关资料采集代理,并以RDF格式、资源数据单元、三元组(AOV)形式、挖掘数据预处理(如语义标注等)的属性与属性值,同时也为对象本体学习做准备。对象本体库是该系统的核心部分,它提供了共享的语义知识元素,并澄清了RDF数据的概念、关系与推论规则。它是对象本体学习与集成的基础,为其他代理提供了共享的语义支持,并存储与管理了对象本体代理所发现的新对象本体。
  协调代理是多代理系统的重要组成部分,主要负责协调相关资料获取代理、对象本体代理、挖掘代理、搜索代理等各种代理行为,并使对象本体RDF数据库与代理实现有效的数据传输与交互。
  运用概率推论与证据推论,模糊推论,如不可控性推论方法,定量表达人们的主观判断与处理,在搜索服务的过程中解决知识元素的不可控性,不可控性相关资料的计算,以及不确定的资源语义解释;利用可靠性的方法,主观的Bayes方法在代表与测量、匹配算法与阈值选择不可控性的搜索质量评价指标体系中,解决了证据组合与结论不可控性综合问题的不可控性,定性与定量观察解析的结合效应;以d-s证据理论为基础,对搜索结果的可信度进行了评价,并对推论过程进行了解释。
  3结论
  在当前阶段,使用语义Web挖掘能够有效地提升信息获取的智能程度。本文以语义Web挖掘信息体系模型为基础,在智能采集体系中应用智能代理技术,在一定程度上使用了代理通信与协调机制,提升了整个体系与智能层的性能。但体系模型需要在实践中进一步完善,下一步是继续研究本体的自动学习算法与多个代理协调机制,优化Web挖掘基于语义信息的智能采集体系模型。
其他文献
目的调查湖南省14个地市农村药品监督和供应网络建设情况。方法选取16个相关指标,采用秩和比综合评价方法,评价湖南省"两网"建设总体水平。结果显示地区A、地区B、地区C建设效
目的建立五味金色丸中没食子酸的含量测定方法,以控制产品质量。方法采用反相高效液相色谱法,用十八烷基硅烷键合硅胶柱,流动相为乙腈-4%磷酸溶液(5:95),检测波长为272nm,流速为
目的为餐饮环节食品安全性检验检测提供参考。方法对国内餐饮食品中滥用添加剂的现有检测技术和方法等进行综述,并就其存在的问题提出对策。结果与结论我国餐饮环节食品添加
Emgu CV是.NET平台下对Open CV图像处理库的封装,可以实现人脸识别的判断。该文着重讨论了在.NET下基于Emgu CV利用GPU加速技术实现了静态图像的人脸检测、人脸识别、人脸比对,以及视频流中的人脸识别。该软件获得我校技术进步二等奖,实验结果证明该程序运行稳定,结果可靠,识别速度快。
目的对药监执法过程中住宅检查权的正确运用提出建议。方法介绍了住宅检查权的定义、性质及法律依据,分析了住宅检查权与非法侵宅、非法搜查的区别,探讨了在药监执法过程中住
摘要:内禀增长率是生命表的一个重要参数,它综合了昆虫发育、存活、产卵等因素,反映种群在一定环境下的数量增长能力。内禀增长率的计算有近似与精确两种方法,外文较多的采用精确算法,但较为复杂、不易实现。该文介绍应用MATLAB软件实现计算内禀增长率的精确值、种群的繁殖力值、稳定的年龄分布的方法,简单快捷,便于推广使用。  关键词:内禀增长率;MATLAB;矩阵模型  中图分类号:TP393 文献标识码:
随着人工智能的兴起和广泛应用,人工神经网络人工神经网络,因此成为热门的研究方向,它的应用非常广泛,经济、生物、医学等各个领域都不乏神经网络的参与和应用。我们这里主要
摘要:对于高可靠软件的可靠性评估一般有两种方法,一种是选择在小样本失效数据情况下能够准确进行软件可靠性评估的模型,另一种方法是基于故障注入技术和加速寿命试验原理,短时间内获得待评估软件更多的失效数据。该文主要对基于故障注入技术和加速寿命试验原理的软件可靠性评估技术进行研究,介绍了故障注入原理和技术分类、加速寿命试验原理和模型,并结合两者分析了可靠性评估技术的可行性,提出了需要解决的问题和对应的解决