基于语义向量融合的中文命名实体识别

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhoujhipanel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,人们生活中充斥着海量的文本数据,命名实体识别任务就是对这些数据中有意义的实体进行提取。它是自然语言处理中一个关键任务,是舆情监测、信息提取任务的基础,其效果的好坏对后续任务研究有着巨大的影响。本文中引入的命名实体识别任务是对文本中的人名,地名,机构名进行抽取。由于传统方法会导致代价大、泛化性差的结果,本文采用了基于语义向量融合的方法对中文实体进行识别。首先利用双向长短时记忆网络(BiLSTMs)进行建模,通过引入条件随机场(CRF)增加规则来提高模型识别效率构建BiLSTMs+CRF模型。以字为单位进行输入,解决了中文分词错误导致识别效果不好的问题。在模型中将经过预训练模型的词向量和字向量进行拼接,得到一组语义向量融合的新特征。然后构建了 CNN-BiLSTMs+CRF的模型,其中卷积神经网络(CNN)用来提取细粒度的特征。为了解决序列模型计算速度慢的缺点,将融合好语义的向量输入到构建的迭代膨胀卷积网络(ID-CNN)。该模型在没有增加参数的情况下使得覆盖的文本和提取的特征变得更多了。在BiLSTM、BiLSTM+CRF、BiLSTMs、BiLSTMs+CRF模型中,通过实验发现字向量与词向量拼接在一起分别都比单独的效果好,语义向量融合后F1最高可达到89.64%。在CNN-BiLSTMs+CRF模型中,F1 达到90.08%。模型ID-CNN中F1的值为89.22%,训练速度只是上述序列模型的三分之一。虽然ID-CNN模型F1的值不是最高,但是也证明了该模型在命名实体识别上的有效性。最后通过模型集成使得F1提升到90.31%。
其他文献
[目的]观察丙泊酚复合右美托咪定或咪达唑仑在老年人无痛胃肠镜检中临床麻醉效果及不良反应的影响。[方法]选取昆明医科大学第一附属医院行无痛胃肠镜联合检查的患者250例,AS
秸秆作为我国农业的主要产物,每年的产出量巨大。但是,由于目前我国对于农作物秸秆新型生产的综合利用率比较低,致使农作物秸秆被大量随意堆积丢弃或者燃烧,这样不仅会严重浪费资源而且还会污染生态环境。为了更好地利用秸秆节约能源减少污染气体排放,现结合了农作物秸秆本身所具有的质量轻、导热系数小等一些基本特征,将其与水泥、粉煤灰、矿渣等胶结墙体材料进行结合,制成新型墙体材料夹心秸秆混凝土砌块。本文对混凝土砌块
党的十八大报告中提出了美丽乡村的概念,这一概念的提出为乡村建设发展提供了新的机遇,美丽乡村建设发展中提出要顺应自然、尊重自然、保护生态文明,要在社会主义建设及规划中加入生态文明建设的重要理念,这不仅是党中央科学发展观的战略决策,更是在创新型发展理念传播中的重大改革。美丽乡村是美丽中国概念提出之后,中央一号文件中的重要议题,这一文件中明确了美丽乡村的奋斗目标及建设方向,确立了环境保护及综合治理工作,
近年来,中国经济呈现出新常态的阶段性特征:增速放缓、结构调整以及驱动力转变。出口和投资纷纷受到外需、国内资源环境等限制。在此背景下,我国迫切需要通过扩大内需,提高居
黄河下游作为典型的游荡型河道,在游荡河道演变规律方面具有极高的研究价值。黄河下游高村以上河段水流宽浅散乱,沙洲发育,易淤善冲,摆动频繁。为治理黄河,许多学者都对黄河下游河道的变化进行了相应的研究。大多数都以实测数据作为主要的研究资料,分析黄河下游河道的变化情况,而遥感影像具有快速提取数据的优势。所以本文以黄河下游花园口的遥感影像作为主要的数据来源,实测资料作为补充。借助分形理论和河相系数的计算,分
万全古城墙位于河北省张家口市万全区,古城墙建于明代,具有悠久的历史文化价值。本论文以万全古城墙作为研究对象,从现场调研、地质勘测、有限元仿真模拟分析和加固维护等几
电影行业是我国文化输出的重要媒介,推动电影行业在海外市场的发展不仅能够为电影制片商提高收益,更可以增强我国在国际上的文化竞争力。近几年来,由于中国IP电影市场飞速发
目的 探讨医院医务工作者遭受工作场所暴力的发生率、影响因素及其应对措施,为医院工作场所暴力防控提出基础数据,推动将暴力防控纳入医院职业卫生防护体系建设之中。方法 采用世界卫生组织等国际组织编制的《医疗卫生行业工作场所暴力行为国家案例研究工具--调查问卷》,以我国中部某二甲公立医院全员医护人员为研究对象,对该院978名医务工作者开展横断面调查及现场重点人群访谈。分析该院工作场所暴力事件的发生率、分布
厌氧氨氧化具有同时去除亚硝酸盐氮和铵盐氮的能力,且该新型生物脱氮工艺能够减少能耗而倍受关注。然而代谢产物中约有11%(占总氮)的硝酸盐氮致使厌氧氨氧化无法高效脱氮并造
随着低可探测技术的发展,包括外形整形、雷达吸波材料应用等,目标体镜面反射、二面角等强散射源得到有效控制,而表面波等非镜面散射机制成为目标体低可探测性能进一步提高的瓶颈。此外,雷达吸波材料在工程应用中面临诸多实际问题,因而对材料提出了更高要求,包括柔性可拉伸、曲面共形、缺陷自修复等。本文针对以上问题,以流延工艺制备的磁损耗柔性吸波材料为研究对象,详细研究了柔性吸波材料的表面波吸收性能,以及材料本征电