论文部分内容阅读
任何民族的发展都不能没有继承。而我国大量的优秀传统文化均以古代汉语为载体。中华文化要传承、要变革,就需要有一批人读文言文,整理古籍,研究历史。然而,由于客观历史条件的限制,人们使用的现代汉语同汉语古籍中使用的古代汉语相比,存在着显著的差异。这给非专业人士阅读古代汉语、接受华夏古文明的熏陶造成了严重的障碍。
随着计算机科学的蓬勃发展,机器翻译已成为突破语言障碍的重要技术手段,特别是基于实例的方法避免了复杂的深层次语法和语义分析,是现阶段古汉语机器翻译的一条可行之路。而基于实例的机器翻译需要大量的对齐语言资源,尤其是词一级对齐语言资源的支撑,为此,本文以古今汉语平行语料库为基础,将可视化技术贯穿于始终,对语料进行了文本关联分析,并提出了挖掘前N个最频繁项集的改进Apriori算法,开拓了一种新的文本挖掘模式,为构建词一级对齐的语言资源打下了基础。
本文主要包括数据准备、文本关联分析及可视化文本挖掘三个方面的内容。
1.数据准备部分。
介绍了古今汉语平行语料库的项目背景及所取得的进展,对语料的收录、标注及预处理进行了详尽分析;并在此基础上提出了互译词对集合的抽取问题,即如何从现有的平行语料库中将具有互译关系的词对抽取出来,并探讨了如何对集合规模进行有效约简,为文本挖掘做好了数据准备工作。
2.文本关联分析部分。
这是本文的核心。首先介绍了关联规则的基本概念,指出其核心问题为频繁项集的挖掘,随后引出了经典的频繁项集挖掘算法-Apriori算法;在此基础上,提出了挖掘前N个最频繁项集的问题,即如何从给定数据集中得到支持度最高的前N个频繁项集,跳出了数据维度的限制,将关注的焦点从最小支持度阈值导向了所得关联规则的个数,尝试由此建立一种适应古今互译词对特点的文本关联分析模式;并根据N个最频繁k-项集挖掘算法--Itemset-loo0p算法提出了改进的Apriori算法,进行前N个最频繁项集的挖掘。文章最后以“吾”字为例,给出了具体的实验范例。
3.可视化文本挖掘部分。
阐述了可视化技术在关联规则挖掘中的运用。指出了传统关联规则挖掘存在的问题,提出了“以人为本”的文本挖掘过程--可视化文本挖掘;明确了可视化文本挖掘不仅要做到结果的可视化,更要做到过程的可视化,从而利用可视化技术促进用户与系统的互动,从而得到最准确的挖掘结果;并以“吾”字为例,展示了挖掘结果的可视化效果。