【摘 要】
:
中文事件抽取是中文信息抽取的一种重要方法,研究如何将从自然语言描述的非结构化文本中抽取出结构化知识,它涉及到自然语言处理、模式识别、机器学习、数据库等多个学科,在
论文部分内容阅读
中文事件抽取是中文信息抽取的一种重要方法,研究如何将从自然语言描述的非结构化文本中抽取出结构化知识,它涉及到自然语言处理、模式识别、机器学习、数据库等多个学科,在文本蕴含、信息检索、股价预测、指代消解以及社区问答等领域均有广泛应用。传统中文事件抽取方法将事件抽取看作分类问题进行处理,通过基于机器学习或者填充事件类型模版的方法来挖掘文本中的事件信息,这类方法往往只能处理特定类型相关的文本。而原子事件是不受事件类型约束的,能够让计算机更加全面地理解段落、篇章或者文档集中所包含的信息。为了从文本中抽取原子事件,本文提出了一种不受事件类型约束的基于改进隐马尔可夫模型(Hidden Markov Models,HMMs)的中文原子事件抽取方法,该方法将中文事件抽取看作原子事件成分标注问题。改进HMMs考虑了历史状态对当前状态转移和观测值生成的影响,还考虑了相对位置特征对原子事件成分识别的影响,此外,还将K-means算法用于错误实例聚类得出错误纠正规则,有针对性地修正统计模型的判别结果。在实验结果评估过程,采用了准确率(Precision)、召回率(Recall)和F值(F1-score)三种判别依据。实验结果表明,本文提出的基于改进HMMs的中文原子事件抽取方法,能够从文本信息中抽取出更加丰富完整的事件信息并且具有较好的效果。
其他文献
为了应对Internet平台下开放、动态、难控等特点对应用的开发、部署、运行、维护带来的挑战,网构软件(Internetware)的概念应运而生,它是一种柔性可演化、连续反应式、多目标
在普适计算环境中,情境信息分析非常重要,它对普适计算环境下的应用能否提供正确服务起着决定性的作用。普适计算的应用要求对情境信息快速而准确的分类和管理,然而收集到的
随着现代科学技术的飞速发展,计算机应用技术逐渐渗透到了社会生活的各个领域,对虚拟现实系统的研究结合现代医学便产生了虚拟手术系统。虚拟手术系统在视觉与触觉感官上为使
在矿产需求量不断上升的大环境下,矿产资源开发利用的过程中由于人为因素引发了一系列环境问题,不仅对矿山安全影响重大,还严重影响了环境,造成了许多环境灾害。为此,环境专
随着科技的不断发展,人们对互联网、网络资源已经不再陌生。而随着时间的推进,网络上的数据资源也日益增多,这些数目惊人的数据资源形成了很多在线数据库隐藏在深层网络中。
网络编码理论是网络通信领域研究的一项重要突破,可以提高网络带宽利用率、平衡负载和提高网络的鲁棒性。本文研究了网络编码的基础理论、线性网络编码的构造算法及其在P2P中
目前,分布式信息系统之间仍然存在一定的互联、互通、互操作的问题,对现有遗产系统进行系统集成是信息一体化建设的一种重要手段。Agent因其自治性、主动性和社会性等特点,本
图像信息已成为人们获取信息的重要途径,对图像信息的处理及利用变得极为重要。图像分割是图像处理领域、计算机视觉领域中的关键问题之一,是大多数图像分析及视觉系统的重要
疵病检测是精密光学元件质量检测的主要方面。本文在国家自然科学基金项目“强激光光学元件表面疵病检测技术研究”的资助下,对大口径光学元件表面疵病检测展开了研究。
超声医学图像以其快速、实时、安全和价格低廉等优点在各个领域都得到了广泛的应用。其中,超声成像技术作为一项新技术运用于黄牛繁殖和胚胎生产,是提高黄牛繁殖的有效手段,