古籍智能处理技术研究——农业古籍自动编纂和自动校勘的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:zhihuan110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国古籍数字化工作起步于20世纪80年代初,至今已经取得了令人瞩目的成就,主要标志是一批大规模、基础性的古籍著作被开发为真正意义上的数字化产品,并成功走向市场。相关研究论文很多,其中主要对古籍数字化的现状、发展趋势及对策进行了探讨,对古籍数字化取得的成果、数字化技术进行了介绍,然而很少见到有关古籍内容的智能化处理方面的研究。由此可见,目前古籍数字化工作主要集中在数字化产品的开发上,对产品开发过程中涉及的数字化技术研究的较多,而对古籍内容的智能处理技术研究的较少. 随着古籍数字化的深入发展,越来越多的研究者认为,古籍数字化不单是复制和再现典籍的原貌,而是将现代技术与传统内容完美结合在一起,形成工具与内容的统一体。数字化的古籍应该是一个增值的信息库,是古籍整理和学术研究的有效工具。提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,以提高数字化古籍的研究支持功能,最后建立一套完整的古籍整理专家系统,这已经成为当前古籍数字化工作的重点内容之一。 本文以农业古籍为研究对象,对利用计算机技术进行农业古籍数字化的各个方面进行了深入研究,分析探讨了古籍数字化相关技术问题,并且就农业古籍整理手段的现代化方面进行了论述,重点研究了农业古籍自动编纂和自动校勘技术及其相关问题。主要研究内容如下: (1)对古籍数字化相关技术进行了系统的介绍和分析。古籍数字化的关键在于原文的快速录入、文本字符的数字化、浏览阅读与超链接设计、检索功能开发等方面,农业古籍的数字化建设也不例外。本文论述了古籍数字化的相关技术问题,主要包括古籍数字化的用字和字符集问题,加工存储技术,浏览阅读技术,以及检索技术,并对已有的一些智能化处理研究进行了介绍。 文中对古籍数字化过程中存在的用字和字符集问题进行了分析,指出古籍数字化应选用unicode字符集,采用繁体字进行录入,并且对繁简字的转换问题以及缺字问题进行了讨论,并给出了解决方案。本文就古籍的扫描步骤、扫描方法以及OCR识别问题逐一进行了分析和介绍。并且指出古籍应该统一文本数据和图像数据的格式,以数据库存储为主,为将来资源的共建共享提供便利。超文本的浏览阅读环境是古籍数宇化在浏览阅读方面的真正优势,本文就古籍中存在的超链接关系进行了分析,并就如何进行古籍资料库的超文本标注进行了探讨。本文在综合比较分析了数字化古籍的三种检索方式后,指出数字化的古籍资源应以全文检索为基础,构建一整套包括具有关键词检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种功能的检索系统。 (2)本文尝试将现代文本自然语言处理的相关技术应用到农业古籍自动编纂的研究中,提出了农业古籍自动编纂的原理,设计了自动编纂的流程,并对自动编纂的技术和算法进行了深入的探讨和研究。 农业古籍自动编纂是指利用计算机自动从农业古籍中发现并摘录与某一主题相关的农业资料,并编纂成册。自动编纂涉及自动分词、篇章分割、段落检索、自动聚类等技术。它的基本原理为:如果两个句子包含相同的单词越多,那么它们的关系越密切,然后根据句子间的密切关系划分出句群。如果发现某一句群包含编纂主题,则将其摘录出来。主要的摘录步骤为:首先将农业古籍的章节分割成大小相等的子句;其次利用最大匹配分词技术,提取子句关键词;然后根据文本块比较法,计算子句之间的紧凑度和深度值,并计算深度值的均值μ和标准方差σ,选择所有深度值高于μ-C*σ的子句间隔点作为分割点;最后按照分割点提取相关论题句群,并将编纂结果按照相关性大小排序输出。若同一编纂主题的编纂结果过多,为了方便用户选择,本研究采用以词为中心的动态自动聚类技术,将编纂结果分类显示.此外,本研究还通过构建农史语词知识库,采用超链接技术,为编纂结果自动添加语词注释,增加编纂结果的可阅读性。 (3)校勘是古籍整理的重要方式,以前长期以手工进行操作,将计算机技术引入其中,实现自动校勘可以极大的提高校勘工作的效率,本文就农业古籍自动校勘算法及其相关问题进行了设计和研究。 古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种校勘辅助工具以帮助专家勘误。本文在模式匹配和中文文本自动校对的基础上,设计了基于窗口匹配技术的古籍自动校勘算法。它的基本原理为:从底本和对校本中取出大小相等的字串进行比较,如果它们不相等,则将其切分成子串再进行比较,并根据校本串相对于底本串出现的增、删及取代的情况,分别判断为衍文、脱文和错文;如果它们相等,则跳过相等部分,重新取出底本串和校本串,重复前面的步骤进行比较.农业古籍自动校勘要求在显示异文的基础上,由机器作简单的判断,或者提供辅助工具(如避讳字表、异体字表等),帮助校勘专家进行判断和选择。因此,古代官名表、人名表、地名表、避讳字表、异体字表、繁简字对照表等辅助工具的建设和引入是古籍自动校勘的重要组成部分,文中详细分析了各辅助工具的构建方法。此外,本文还探讨了利用古籍中的“互见文献”进行自动校勘的模式和方法。 (4)构建农业古籍智能处理系统亦是本文的重要研究内容,该系统主要由自动编纂、自动校勘和辅助工具三个子系统组成.其中辅助工具子系统除了包含上述辅助工具外,还增加了中国历代纪年表,中国历代帝王年表,中国历代年号索引表等。本文详细阐述了这三个子系统的总体设计及实现情况,包括资料收集、功能模块结构等,并分别对自动编纂和自动校勘的效果进行了测试。 本研究采用人工打分的方法对自动编纂的结果进行了测试,结果表明良好的编纂结果占到了72.2%,编纂的效果比较令人满意。同时,本文采用定量的方法,对自动校勘的结果进行了测试,发现系统对不同版本间异文比对的召回率和精确率,分别达到了92.3%、95.2%,说明基于窗口匹配的算法是可行的。当然,本系统仍存在一些不足,自动编纂和自动校勘的效果还有待提高,辅助工具的建设以及实验系统的整体功能还有待完善本文将现代文本自然语言处理的相关技术在农业古籍的智能化整理中加以应用,其创新之处包括: (1)结合古农书自身的特点,借鉴自动分词、篇章分割和段落检索等技术,设计了农业古籍自动编纂的模型,并对其中的关键技术进行了深入的分析和研究,如论题句群提取、编纂结果聚类显示等,实现了农业古籍自动编纂的功能,使古籍智能化处理工作向前推进了一步。 (2)借鉴中文文本自动校对和模式匹配技术,提出了古籍自动校勘的原理,设计了基于窗口匹配技术的自动校勘算法,并对校勘辅助工具的构建方法进行了探讨和分析,实现了农业古籍自动校勘的功能,是古籍校勘和整理工作走向自动化和智能化取得的突破。 (3)将现代文本自然语言处理技术引入到农业古籍数字化研究中,设计并开发了农业古籍智能化处理系统,促进了农史史料学、文献学研究方式方法的革新。
其他文献
目的:了解育龄男性泌尿生殖道解脲支原体(UU)和人乳头瘤病毒(HPV)感染的情况,探讨可能的影响因素,为今后开展生殖道感染的预防提供科学依据. 方法:2016年8月至2017年7月,采用
目的:通过对比儿童与成人单纯睾丸卵黄囊瘤的特点,提高睾丸卵黄囊瘤的诊疗水平. 方法:选取2008年5月至2018年7月病理确诊的单纯性睾丸卵黄囊瘤75例患者为研究对象,其中64例患
精子发生是一个复杂而又精确的生殖细胞分化的过程,它经历了精原细胞有丝分裂、精母细胞减数分裂和精子形成3个阶段.这一过程受许多因素的调控,其中细胞周期蛋白的调节起着决
早泄是男性最常见的性功能障碍性疾病,属于射精障碍.对于早泄的定义还有许多争议.随着对早泄病因及病理机制研究的不断深入,越来越多的辅助检查用于早泄的诊断、预后判定及治
尼尔(Neill)和冈特(Gunter)有限公司已对一个从通常复合硫化矿石中回收铜、铅、锌和银的氯化铁浸出车间进行了初步设计和成本估计。已提供了约30份设计图纸,包括工艺流程、设
《通制条格》是元朝政府颁行的法令文书汇编《大元通制》中的条格部分。它作为一部法律文书,包括元代政治、经济以及农业生产等各方面的内容,是研究元朝典章制度、社会经济和阶
在影响男性生育功能的诸多因素中,精浆微量元素的研究一直被受关注.精浆锌主要来源于前列腺,前列腺组织内含有高浓度的锌.锌直接参与精子的生成、成熟、激活和获能等过程,对
随着越来越多的转移性前列腺癌患者对去势治疗抵抗,进入去势抵抗性前列腺癌(CRPC)阶段,治疗方案的合理选择及对治疗效果的预测变得越来越重要.大量研究发现雄激素受体变异体7
中国在近现代历史时期是一个人口众多而耕地资源相对稀缺的国家,而在传统农业社会中,人均耕地资源的极大短缺必然导致耕地价值的上升,从而吸引大量的资本和技术流向耕地。但是,由
自我感受负担量表(self-perceived burden scale,SPBS)是由Cousineau等[1]于2003年研究透析患者时首次提出,他们认为自我感受负担(self-perceived burden,SPB)是个多维的概念