基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:shaodongjia1668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。 【Objective】 Chinese institutions have complex structure and rare words, so it is very difficult to recognize. The correct identification of Chinese institutions is of great significance to the follow-up tasks in information science, such as information extraction, information retrieval, knowledge mining and institutional research evaluation. 【Method】 Based on the recurrent neural network (RNN) method of deep learning, this paper redefined the input and output of body name annotation according to the characteristics of Chinese characters and words, and proposed a cyclic character annotation model of Chinese characters. 【Result】 Based on word-level recurrent neural network, the accuracy of word-level model proposed in this paper has been significantly improved, the recall rate and F-value have been significantly improved, and F value increased by 1.54%. The increase was even more pronounced with the inclusion of rare words, with a F-value increase of 11.05%. [Limitations] The greedy strategy is used directly during decoding, which is easy to fall into the local optimum. If the conditional random field algorithm is used for modeling, the global optimal result may be obtained. 【Conclusion】 The method proposed in this paper is simple in structure and can use Chinese character level to model. It achieves better results than using only word features.
其他文献
现代社会中,随着员工工作压力的不断增大,企业员工的心理健康成为人们日益关注的问题,随之而来的是员工对于心理健康援助服务的需求也随之增大。EAP(Employee Assistance Program
随着后工业社会的来临,知识和信息在经济社会中占据着越来越重要的地位。在享受信息给人们带来的便捷的同时,人们也会遇到繁杂信息带来的困扰,在信息推动经济社会高速运转的同时
为了实现LCL型有源电力滤波器(active power filter,APF)在稳定控制的同时,不增加系统的复杂程度,提出了一种基于电网电流检测、逆变侧电流反馈的电流双环控制方法。在不额外
随着经济社会的发展,工程建设项目逐渐增多,施工技术类型也逐渐多样化。目前,人们对施工质量提出了更高的要求,推动着工程质量检测技术逐步发展。筒压法就其中的一个,在混凝
在中国,作为一种重要的民办企业经营形式,家族企业得到了充分的发展,并为中国经济腾飞做出了重大的贡献。正如储小平指出的那样:家族企业是一种值得关注的经济现象,也是一种不容
学位
个体主义与集体主义是价值观的核心问题。价值观研究开始于20世纪30年代。价值观研究自从被提出后,就受到许多研究者的关注,并成为多种学科关注的问题,哲学、经济学、人类学、社
一我很喜欢任思鸿这个人。全世界的医生都说吸烟有害健康,他不管,一天四包,只两个字儿:喜欢。邻居顾长卫说他有时候像个小流氓,这话不是贬他,而是夸他。所谓小流氓也就是时不
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊