面向古今汉语平行语料库的可视化文本挖掘研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:muteng12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任何民族的发展都不能没有继承。而我国大量的优秀传统文化均以古代汉语为载体。中华文化要传承、要变革,就需要有一批人读文言文,整理古籍,研究历史。然而,由于客观历史条件的限制,人们使用的现代汉语同汉语古籍中使用的古代汉语相比,存在着显著的差异。这给非专业人士阅读古代汉语、接受华夏古文明的熏陶造成了严重的障碍。 随着计算机科学的蓬勃发展,机器翻译已成为突破语言障碍的重要技术手段,特别是基于实例的方法避免了复杂的深层次语法和语义分析,是现阶段古汉语机器翻译的一条可行之路。而基于实例的机器翻译需要大量的对齐语言资源,尤其是词一级对齐语言资源的支撑,为此,本文以古今汉语平行语料库为基础,将可视化技术贯穿于始终,对语料进行了文本关联分析,并提出了挖掘前N个最频繁项集的改进Apriori算法,开拓了一种新的文本挖掘模式,为构建词一级对齐的语言资源打下了基础。 本文主要包括数据准备、文本关联分析及可视化文本挖掘三个方面的内容。 1.数据准备部分。 介绍了古今汉语平行语料库的项目背景及所取得的进展,对语料的收录、标注及预处理进行了详尽分析;并在此基础上提出了互译词对集合的抽取问题,即如何从现有的平行语料库中将具有互译关系的词对抽取出来,并探讨了如何对集合规模进行有效约简,为文本挖掘做好了数据准备工作。 2.文本关联分析部分。 这是本文的核心。首先介绍了关联规则的基本概念,指出其核心问题为频繁项集的挖掘,随后引出了经典的频繁项集挖掘算法-Apriori算法;在此基础上,提出了挖掘前N个最频繁项集的问题,即如何从给定数据集中得到支持度最高的前N个频繁项集,跳出了数据维度的限制,将关注的焦点从最小支持度阈值导向了所得关联规则的个数,尝试由此建立一种适应古今互译词对特点的文本关联分析模式;并根据N个最频繁k-项集挖掘算法--Itemset-loo0p算法提出了改进的Apriori算法,进行前N个最频繁项集的挖掘。文章最后以“吾”字为例,给出了具体的实验范例。 3.可视化文本挖掘部分。 阐述了可视化技术在关联规则挖掘中的运用。指出了传统关联规则挖掘存在的问题,提出了“以人为本”的文本挖掘过程--可视化文本挖掘;明确了可视化文本挖掘不仅要做到结果的可视化,更要做到过程的可视化,从而利用可视化技术促进用户与系统的互动,从而得到最准确的挖掘结果;并以“吾”字为例,展示了挖掘结果的可视化效果。
其他文献
随着计算机和机器人学的发展,现代机器人已经不仅仅在工业制造方面,而且期待能在农业、林业、军事、医疗、文娱、家用、科学研究等许多方面得到广泛的应用。然而对于家庭服务
随着语义web技术的不断进步,人们开始更多的关注其在web服务方面的应用。人们期望能系统而准确的对服务应用领域的概念进行抽象和定义,从而把语义web的优势与web服务的优势相融
Web服务经常需要被组装成一个复合Web服务,以完成单个服务不能完成的任务。复合Web服务必须确保按照正确的方式调用组件服务完成既定目标。这就需要多种控制结构,包括顺序、条
形式化方法经过几十年的研究发展,为并发系统的建模与验证做出了巨大的贡献。事件结构是一种主流高效的形式化方法,由基于抽象动作的事件以及事件之间的因果、矛盾、并发三种逻
智能Agent技术的诞生和发展是分布式人工智能技术和网络技术发展的必然结果。基于网络的分布式人工智能是在传统人工智能的基础上发展起来的,本质是采用人工智能等技术,研究一
开放环境下,越来越多的分布式系统被应用于各个领域,如资源共享,电子商务等。这些应用系统与传统的集中式系统相比,有资源丰富,容错性好,节省服务器维护开销等优点,但同时存在不同于
随着企业信息化进程的加速和经济全球化给企业带来的竞争压力不断加剧,越来越多的企业想要构建自己的数据仓库系统,整合企业大量的、分散的、杂乱无章的数据,期望从中发现对
随着软件系统的日益复杂,代码量越来越大。目前,Java多线程的同步保护需要程序员手动完成,这样不仅加重了程序员的负担,而且难以实现读写互斥。此外,对方法调用顺序的运行时刻验证
近年来,随着计算机网络技术的高速发展,Web软件应用迅速推广,企业很多应用基于Web进行开发,对基于Web应用软件进行性能测试成为一项迫切的工作。 Web应用程序不同于传统的
随着网络技术的不断发展和企业信息化建设的不断进步,企业开发的应用系统也在不断增多,这些系统有着独立的安全验证机制,用户的身份信息分别被每个系统保存的,无法互相传递,