基于web网页的知识获取的研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:WHO891225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web网页知识获取是在海量的网页上,进行主题的挖掘,然后将其转化成机器内部的结构化的数据。这个转化的过程是使计算机由外到内转化的一个过程,这个过程我们形象的称之为知识抽取。将网上获取到的数据转换为可以共享的知识,并可以供我们去检索和利用的一个过程。但是这个过程中涉及到的文本的主要内容的提取、和句子到RDF的转化都是几个当今比较大的难点。传统的LDA模型抽取主题句的时在计算主题---文档分布的时候没有考虑文档的篇幅或者说字数的长短、段落的多少的问题,直接将主题分给文档,但是有可能这只是某一段的或者某几段的主题,会错误的将小主题分给大主题,影响最终主题的准确性。最后,LDA主题模型计算词项---主题之间的分布时,忽略了词与词之间的关系,这样就忽略了连续的词项可能会有相同含义的可能性,最后的抽取的主题必然会不准确。在阅读了大量的参考文献之后,本文就这两个难点进行分析研究。提出了一种改进的LDA模型在web网页知识抽取中的应用。另外,运用依存关系和最大熵分类器实现了句子到RDF的转化,实现了更加准确和快速的提取知识。抽取到主题关键句之后,根据规则将关键句处理成功能动宾短语的格式,所以接下来要处理的就是功能动宾短语中的语义角色分类标注问题,我们先用统计的方法得到一个词汇表,这个词汇表是相关领域的比较专业的知识。然后利用分词的词性标注、句法分析将其处理成结构树再变为句法树,最后根据最大熵分类器,利用人工提前训练好的数据,将句子转化成资源、属性、属性值的RDF三元组,最后填充知识库。实验结果表明,此模型和传统的知识抽取技术以及和LDA模型对比,此模型有更深层次的挖掘,挖掘内容的准确率较高,对新样本的适应性较强。
其他文献
多传感器图像信息融合是一个正在兴起的,并有着广泛应用前景的研究领域.在智能机器人、医学影像、制造业、战场和法律、遥感等领域都有广泛的应用.当前图像融合的研究重点在
论文围绕虚拟农作物生长可视化平台的行为建模展开.首先,我们从平台的使用过程的角度分析了行为建模的任务,揭示了农作物生长行为的本质,提出了生长实体的动作与行为的概念;
在当今的移动通信领域,人们的目光都聚焦于一项新技术,那就是第三代移动通信技术(3G).而对第三代移动通信系统所要达到的目标主要是,实现全球无缝的移动漫游:随着移动通讯领
随着计算机网络技术的快速发展,Internet的广泛使用,科技的发展已经与网络技术密不可分.网络技术的发展经历了基于CPU的网络设备,ASIC网络设备的发展阶段,已经不能满足日常应
驱动程序是属于系统内核的一部分,其工作环境相当复杂,出现的任何一点错误,都很容易导致整个系统的崩溃.因此,有必要对其进行深入的研究.WDM驱动程序模型是微软公司为Windows
在大数据时代,如何从堆积如山的数据中有效地收集和分析数据,发现隐藏在高维数据背后的本质特征将有助于大数据的处理和应用。流形学习可以把高维数据映射到低维空间中,发现
Internet技术和电子商务的迅速发展,极大的改变了人们的生活和工作方式,同时也带来了许多安全隐患.网络中传输的信息可能被窃取、修改,交易方可能会否认自己的行为,因此,安全
随着基于Internet上的Web应用服务迅速发展,提供高性能、高可靠性的各种Web应用软件已成为用户的迫切需求.由于缺乏统一有效的管理,目前的Web软件开发基本呈无序状态,而且在
学位
工作流管理系统在电子商务、电子政务等领域中具有重要的应用价值,它能够有效地解决实际应用中业务流程重组、过程管理等问题,适应了企业业务流程的快速变化等特点。但是,随着应