基于深度学习的古籍词法分析研究

来源 :南京师范大学 | 被引量 : 2次 | 上传用户:yangmingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能时代的到来,古籍信息处理研究受到了越来越多的关注。词法分析主要指对句子进行自动分词、词性标注和命名实体识别三大子任务,词法分析工作是古籍信息处理的基础,不经过高精度词法分析的古籍,难以进行深层次的信息处理工作。长期以来,古籍的词法分析受技术手段、标注资源的限制,研究进展较现代汉语显得颇为迟滞。本文研究重点在于将深度学习方法应用于古籍的自动断句、词法分析中以构建古籍自动标注平台,具体包括以下几个方面:第一,本文将深度学习中的LSTM-CRF这一模型结构运用到古籍词法分析中。使用文渊阁版《四库全书》训练字向量,在尽量覆盖更多古文字的基础上提升模型效果。以《左传》前十卷为训练语料,后两卷为测试语料,使用一体化词法分析方法同时得到分词、词性标注、命名实体识别的结果。实验结果为分词调和平均值94.81%,词性标注90.21%,人名实体识别82.79%,地名实体识别82.49%。经十折交叉验证法进一步验证了模型的效果,并经进一步的实验发现,如果将词性信息去除,命名实体识别的精度会略有提升。第二,设计制作了古籍专名信息词典数据库。对多部古籍资源中的数据进行梳理、整合,将不同来源、不同的数据格式的专名信息词典整理成统一的结构化数据库。根据前人研究成果,计算出了每个专名的词语通用度,以减少常用字引起的误匹配。为了快速匹配出词条,对trie树进行了改进。该词典数据库不仅可以和神经网络融合,以提升命名实体识别的精度,也可以向校对人员提供释义信息。经实验证明,将词典和神经网络进行结合后,命名实体识别的精度有了一定的提升。第三,将JavaEE技术和TensorFlow技术结合,设计开发了一套古籍在线自动标注系统。使用JavaEE技术构建了基于MVC架构的系统主体,其中的标注模块分别与词典数据库和部署了词法分析模型的TensorFlow交互。该系统各个功能模块之间实现了充分的解耦合。第四,在进行词法分析研究的过程中发现,很大一部分古籍是未经断句的文本,而要对古籍进行词法分析,必须以句子为单位输入模型。因此在一体化词法分析研究的基础上,研究基于神经网络的自动断句方法。在总结前人研究不足的基础上,提出了新的语料断句的处理方法,并经实验证明,卷积神经网络在自动断句上效果较好,以《二十四史》为训练集,在《三国志》上取得的调和平均值为 86.69%。综上所述,本研究使用深度学习技术来解决古籍的自动断句和词法分析问题,整合词典资源改善命名实体识别精度和提供释义,最终形成了具有实用价值的系统。
其他文献
[目 的]恶性肿瘤的发病率在全球范围内呈增长趋势,肺癌是其中的头号杀手。分子调节免疫应答、重塑肿瘤微环境(tumor microenvironment,TME)是肺癌治疗研究的热点。TME是肿瘤
0引言激光灯定位系统在肿瘤的精确放射治疗中有着至关重要的作用,患者在肿瘤定位和治疗摆位中,要依靠激光定位灯投射出的激光线指示机器等中心或者相对等中心的位置,它能保证
目的:探讨常规放疗模拟定位机的质量保证(quality assurance,QA)和质量控制(quality control,QC)的主要内容及检测方法,以保证临床放疗定位的稳定性,提高治疗实施的准确性和精度。