【摘 要】
:
随着蒙古文信息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满
论文部分内容阅读
随着蒙古文信息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满足,蒙古文文本自动校对已成为一个亟待解决的问题。蒙古文是一种拼音文字,区别于其它拼音文字的是,在书写时,蒙古文使用变形显现字符来表示文字。输入者常常把那些形状相同读音不同的变形显现字符错误地录入到单词中,这种现象被称为形同音异现象。从字形上看,该单词是正确的,可是它内部的编码是错误的。在多数情况下,计算机是按照字符编码识别词汇的,如果不纠正这些错误,将使蒙古文信息处理的研究变得更加困难。检查非词错误的传统有效方法是查找词典,如果指定单词不在词典中,则认为非词。然而,蒙古语是粘着性语言,拼音文字,多数构词都是由词根或词干连接不同的后缀来实现的。词典中包含的单词数量有限,为扩大词汇的覆盖面,可使用词典结合于构词规则的方法,这也是处理粘着性语言时常用的方法。本文将词典和构词规则融合到有限状态自动机模型中,介绍了一种基于有限状态自动机的蒙古文同形词校对方法。首先,以《蒙古文正字法词典》为依据,根据蒙古语单词的语法特征以及词的结构,构造词法分析器。然后蒙古文国际标准编码基本字符集、传统蒙古文名义字符的变形显现字符以及变形规则,建立同形字符规则库。最后,根据同形字符规则库,在词法分析器上进行启发式搜索,如果输入单词正确,则不做任何处理;如果输入单词错误,则用与其同形的单词对其纠错。
其他文献
随着计算机网络技术和信息技术的不断完善和快速发展,信息安全重要性越来越受到重视。在网络环境中,数字签名技术具有较高的安全度,可以确认发件人的身份,具有认证功能,避免
随着物联网发展,RFID作为物联网的关键推动技术备受关注,中国于2009年超过英国,成为了仅次于美国,全球开展RFID项目数量排名第二的国家。RFID射频识别技术具有非接触性、使用
基于脑机接口的动物机器人系统,是以动物为载体,将外部控制指令转化为各种形式的有效刺激施加给动物大脑,从而直接干预动物的感受并控制其行为。随着实际应用的需求越来越迫切,精
计算机系统安全问题日益突出,异常检测技术由于具备检测未知攻击的能力越来越受到普遍关注。异常检测可以分为基于网络和基于主机的异常检测,本文讨论主要是基于特定主机尤其
随着计算机技术与网络通信行业的迅猛发展,人们对高速运动状态下信息传递、获取需求越来越强烈。无论是无人机空中作战指挥,还是地面上移动车辆之间的协同等,都需要高速移动
随着计算机和通信技术的发展,个人及企业的电子文件数量也在不断地增长,这些文件中不乏一些需要个人和企业保密的重要文件。由于个人及企业员工安全意识或者防范能力较差,导
P2P技术的诞生给数据集成领域带来了强大的发展动力。传统的集中式数据集成系统具有系统性能依赖服务器这一系统短板,结合P2P和数据集成系统两者优势而诞生的P2P数据集成系统
随着互联网技术的不断发展和普及,信息技术为多媒体信息的收发和存取提供了极大的便利,也使信息之间的交流达到了从未有过的广度和深度。信息隐藏利用其伪装这一特点在信息安全
Web服务组合的目标是通过简单服务的组合形成以满足需求的新服务,这个目标的完成是通过相对简单的Web服务交互的设计。但Web服务组合的执行过程中,复杂的需求的互动往往涉及