【摘 要】
:
随着互联网的发展和机器学习技术的进步,知识库正越来息抽取,自然语言处理和语义网等研究领域。因此,知识库的自动化构建成为了这些互联网相关领域的一个研究热点。在过去几
论文部分内容阅读
随着互联网的发展和机器学习技术的进步,知识库正越来息抽取,自然语言处理和语义网等研究领域。因此,知识库的自动化构建成为了这些互联网相关领域的一个研究热点。在过去几年的研究中,已经有一些基于网络百科自动化构建知识库的成果,然而这些成果主要基于英文语料,目前尚无一个可用的内容丰富的大规模中文知识库。 本文介绍了如何利用机器学习技术自动地从互动百科中抽取实体属性,并通过实体链接生成实体间的关系,从而得到一个内容丰富的开放领域的大规模中文数据库的过程。首先,我们从互动百科中的infobox这样的半结构化数据中抽取<属性,属性值>对。然后我们将这些数据作为我们的训练语料,利用条件随机场模型训练得到属性抽取器,从互动百科的正文中抽取我们需要的<属性,属性值>对。这样我们得到了大量的形式为<主体,属性,属性值>的三元组。最后我们利用向量空间模型和Google相似性距离对可能是实体的属性值进行实体链接,从而明确实体间的关系,得到满足RDF标准的(主体(subject),谓词(predicate),客体(object)>-<S,P,O>三元组。本研究主要包括三个方面的工作。第一,从互动百科的半结构化内容-infobox等结构中进行三元组抽取。第二,我们设计了一个自学习框架,将之前的结果作为训练语料,从互动百科的非结构化文本-页面正文中进行三元组抽取。第三,对可能是实体的属性值做实体链接。我们的方法在实现上较为简洁,运行效率高并且具有较高的准确率,非结构化抽取和实体链接方法有很强的可扩展性。我们的实验表明,从网络百科中使用极少的人工干预,自动化地抽取大量<S,P,O>三元组来构建面向开放领域的大型中文知识库是可行的。
其他文献
利用串联质谱进行肽段和蛋白质鉴定已经成为蛋白质组学的核心技术。目前,基于串联质谱技术的蛋白质鉴定主要有两条技术路线:数据库搜索(Database Searching)和肽段从头测序(D
地理图片共享已逐渐成人们网络社交活动中的重要组成部分,既包含图片拍摄时的地理信息,又蕴含着人们的喜好、意图和形为模式,同时大量地理图片数据揭示着人们活动的共同规律
上世纪90年代,在生产流程的潜力已经挖掘到极限的情况下,各国的企业家,专家和学者们开始集中在业务流程的优化,并从很多角度,进行了大量的研究,尤其是美国,对业务流程的投资
现场可编程门阵列FPGA是一种包含可编程元件的半导体器件,可供用户现场编程,具有设计开发周期短、设计制造成本低、可反复编程、灵活性高等优点。目前,FPGA已广泛应用于空间
EAST数据系统是EAST聚交实验的重要组成部分之一,它主要用来采集、存储、分析、发布和可视化EAST实验数据,为物理研究人员分析和处理EAST实验数据提供平台。而EAST数据采集控制
三维几何建模是计算机图形学中的关键技术,是进行后期渲染、动画制作等步骤的必经环节,具有重要的研究和应用价值。点云数据作为真实世界中物体的三维几何形状的最重要的离散
三维变分资料同化系统3DVAR作为现在主流数值天气预报的同化方法,能明显改善预报数据的同化质量,随着科学研究的逐渐深入以及科学探测仪器和计算机的技术的不断发展,传统串行三
随着J2EE的发展,服务器领域的Java应用越来越多,典型的有hadoop、tomcat、weblogic和websphere,其中绝大多数是基于SunJDK6开发的。近年来国产CPU发展迅猛,其中具有代表性的
人体动作识别的关键问题是如何从底层数据中有效地挖掘高层语义信息,使计算机能够理解人类行为并更好地为人类服务。人体动作识别的研究融合了计算机视觉、图像处理、模式识
现代科学研究对高性能计算机的依赖程度越来越高。当应用程序的计算、访存和通讯特征和目标硬件平台不匹配时,通用高性能计算机的实际性能会大为降低。专用高性能计算机系统