先秦汉语自动分词及词性标注研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:rrsmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词和词性标注是中文信息处理的基础性工作,至今已有二三十年的历史。在现代汉语领域已经取得了令人瞩目的技术成果,但在古代汉语领域则研究甚少,有许多问题尚待解决,如古汉语双音节词的判定、高效实用的古汉语语料加工软件等。本文主要探讨如何用中文信息处理技术,在先秦汉语领域,进行自动分词和词性标注。   语料的观察和统计是进行中文信息处理的出发点。基于统计的策略是本文采用的的主要技术。结合大规模语料库,对《左传》文本进行详尽的语言学考察,统计语料的高频字词的实际使用情况及平均词长,为先秦汉语分词标注规范的制定提供数据支持。梳理传统语言学界已有研究成果,总结先秦汉语的词类体系,完善分词规范,进而对《左传》文本进行了词汇处理(分词和词性标注)。然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。   分词部分采用由字构词原理,进行字标注分词实验,模板分为两种:简单字面信息和增加复杂汉字特征。为了验证传统的先分词后标注的“两步走”方法,在古汉语语料上是否存在分词错误扩散问题,特别设计了两个词性标注对比实验:即在分词得到的最佳分词文本上进行词性标注实验,以及充分利用词性信息的分词标注一体化实验。另外还进行了基于标准分词文本的词性标注实验,理论上,将最佳分词文本的分词精度和标准分词文本的词性标注精度相乘,便可得到最佳分词文本词性标注精度的预测值,以此作为测试语料的最佳估值。   一体化方法不仅提高了分词精度,词性标注效果也有了明显提升。对《左传》分词和标注开放测试的最高F值分别达到了94.60%、89.65%;应用此方法对《公羊传》、《国语》、《吕氏春秋》等先秦文献进行小规模开放测试,也取得了令人满意的成绩,本文又进行了交叉验证。实验结果显示,2W-+2+C1’模板分词和词性标注平均F值均取得了最好成绩,只是时间开销比较大。我们得出结论,基于上下文两个汉字、汉字二元同现、字符分类及其二元同现的模板,最适合先秦汉语的语料自动标注加工。   研究表明,一体化方法满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。
其他文献
学位
结合实际课例,探讨了小学数学教学过程中,运用操作探究的学习方法,是引导孩子愉快、主动地学数学的最佳方法。 Combined with the actual lesson, this article explores th
全新的高效能利器rn通过下边的参数对比,我们可以看出GTX660Ti的核心仅仅是在GTX670的基础上将光栅单元数量减少8个,同时将它的显存控制器改为192bit而已.另一方面,我们可以
从硬件配置、应用功能到上市时间及价格,每一款苹果产品的诞生,总能成为市场的焦点。巨大的销售量的确让苹果产品有成为街机的困扰,不过出色的人机交互性总让人们在用过苹果
从研究性学习实施的几个步骤、学生在研究性学习中转换角色和进一步合理化研究性学习的评价策略几个方面提出了更利于开展研究性学习的方法和策略。
保罗·奥斯特(1947-),美国当代作家,早年写诗,后转向小说创作,中途兼以翻译法语作品为生。在法国游学期间,他接触了大量现代后现代理论。早期因创作“非典型性”传记《孤独及
新课改环境下素质教育的根本要求除了要提高学生的成绩之外,对学生的口语表达能力也有一定的要求.让学生敢说、会说,能够说清楚、说明白是语文教学的关键,教师要从口语表达能
林长龙先生年届花甲,自幼酷爱诗词书画艺术,常年笔耕不辍,师法二王颜欧,精研北碑南帖,博采众长创新意,个性鲜明立特色。他是德阳乃至四川书画界的一棵常青树。他的行书和草书
惯用语反映了一定的社会和文化现象,是民族语言沉淀下来的极具特色的一部分。现代汉语的惯用语以三音节、述宾结构为主要形式,而述宾结构的惯用语又通常以共同的述语动词为中
利用有限元分析方法,模拟计算汽车变速箱用离合器盘TIG焊条件下焊接温度场分布及熔池形态。采用等密度分布体积热源模拟TIG焊时在强电弧作用下所形成的热源。结果表明,采用简