面向汽车领域的命名实体识别研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:boblllll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,结构化和非结构化的文本数据增长速度迅猛,如何从海量的文本数据中抽取有用信息已经成为当前的研究重点。命名实体识别是信息抽取的子任务之一,是从无规则的非结构化文本中抽取有用信息的底层技术,命名实体识别的效果直接影响很多自然语言处理领域的任务。现代社会汽车已经普及,从汽车文本数据中抽取命名实体信息也变得越来越重要。因此,面向汽车领域的命名实体识别研究具有重要的意义。近二十年来,以深度学习为首的人工智能再度成为时代的潮流。在自然语言处理领域,循环神经网络(Recurrent Neural Network,RNN)逐渐成为主流方法,尤其是门控循环单元(Gated Recurrent Unit,GRU)的提出,能够更好地捕捉时间序列中时间步距离较大的依赖关系,在自然语言处理领域得到了广泛应用。随着Attention机制在自然语言处理领域的成功运用,学术界已经将Attention机制与深度学习巧妙地融合在一起,从而让深度学习拥有了更加强大的特征抽取能力。本文首先重点介绍了命名实体识别的研究背景和重要意义,介绍了国外和国内命名实体识别的研究现状,并对中文命名实体识别过程中应用到的技术和方法进行了简要的描述。在接下来的三个章节中,本文针对汽车领域命名实体识别问题依次提出三个模型,并对每个模型进行了详细的介绍和分析,构建了汽车领域命名实体标注数据集,并在该数据集上进行了详细的实验来对比不同参数以及不同模型的具体结果。本文提出了基于BLatticeGRU的命名实体识别模型,并对模型进行了详细的介绍,概述了模型的训练过程。提出汽车领域命名实体标注规范并在此基础上构建了汽车领域命名实体标注数据集Automobile-NER。在Automobile-NER数据集上对BLatticeGRU模型和基线模型进行了对比,实验表明该模型的性能优于基线模型。在此基础上,本文将BLatticeGRU和Transformer进行了融合,构建了BLatticeGRU-Attention模型。然后通过实验验证了biword和Transformer层数对模型性能的影响,又通过与BLatticeGRU模型进行对比,验证了BLatticeGRU-Attention模型的有效性。最后,本文将BLatticeGRU、Transformer和条件随机场(Conditional Random Fields,CRF)融合在一起,提出了基于BLatticeGRU-Attention-CRF的命名实体识别模型,并在Automobile-NER数据集上对该模型与其他模型进行了对比,验证了该模型在汽车领域命名实体识别任务中的良好效果,得到了精确率94.05%,召回率93.92%,F1值93.98%的实验结果。
其他文献
<正>简介上海浦希环境科技发展有限公司首席工程师,原东华大学环境科学与工程学院教授、博士生导师由奚旦立开发的催化氧化技术、微米和类纳米过滤技术,可有效解决印染废水排
近年来遵化市酿酒及鲜食葡萄生产发展较快,已成为天津、秦皇岛等葡萄酒厂的原料基地,栽培面积达到了1.5万亩,总产量达3万吨。控制和减少葡萄病害发生是葡萄生产的关键。遵化
公元前16世纪至公元前11世纪的商代,是我国奴隶制王朝的巩固和发展时期。商朝的甲骨文是一种成熟了的文字,用来记录商王的活动和祭祀等重要事件,我国有文字可考的历史便是从
期刊
目的研究在无症状的肺癌高危人群中利用低剂量CT(LDCT)联合血清p16基因甲基化检测进行肺癌早期诊断的可行性。方法肺癌高危人群入组标准:男性,年龄55~75岁;吸烟指数≥400支/年,目前仍
目的通过监测分析解放军第155医院临床科使用抗感染药物的现状,研究解决合理应用抗感染药物的对策。方法感染办对近2年来出院、住院病例进行监测,从中发现不合理使用抗感染药
公务员退出机制作为公务员系统人员更迭,吐故纳新的重要组成部分,关系着公务员队伍的整体人力循环功能。我国公务员系统中,对于公务员的退出存在着一贯的有章可循但实施困难
英属印度的租佃制度黄思骏英属印度①的土地关系是研究印度历史上土地关系演变的重要环节,它包括两个方面:一是英属印度的土地整理,②二是英属印度的租佃制度。前者是讲英国殖民
现今,高效的医疗器械计量管理已经成为了医院高度重视的一个重要方面。也是增强医院综合经济水平、提升医院经济效益的关键。
在美国媒体的叙事结构里,由于在华跨国公司资本对利润或剩余价值的过度追逐,造成跨国公司中公司与劳动力健康、当代人享用与未来人资源掌控、市场异化消费与中央政府理性管控