一种中文未登录词识别及词典设计新方法

来源 :西南大学 | 被引量 : 0次 | 上传用户:mmg5fc1cc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理领域的一项基础性课题,未登录词识别问题又是中文分词的瓶颈问题之一。为了解决中文分词中的未登录词识别效率低下的问题,本文在分析现有未登录词识别难点、相关算法基础之上,提出了一种未登录词识别与词典设计新方法。本文的研究重点主要包括以下几个方面:(1)未登录词识别处理策略。通过分析目前未登录词的产生背景以及特点,提出一种基于网络论坛的中文未登录词识别新方法:首先利用网络蜘蛛下载论坛网页,对网页进行预处理,得到干净的语料库;然后对语料库分词,得到连续的分词碎片;对分词碎片进行姓名识别后,进行词频统计,识别高频共现词;最后利用Mutual Information函数和Partial Information函数线性叠加的新统计函数MP (Mutual Information函数和Partial Information函数的首字母结合而成)函数作为判断候选未登录词的依据,将确定为候选未登录词的词语加入到临时词典中。当累积到一定的词频后,再将其扩充到核心词典中,以便在下一次分词过程中一次性识别出该未登录词。(2)基于逆向最大匹配算法的分词词典设计。本文在进行字符串匹配前,首先对待切分文本扫描,找到以每个字开始能组成词的最大词长并比较,将最大值记为本次字符串匹配的首字下最大词长,然后利用优化的逆向最大匹配算法,根据该词长按照首字、尾字、剩余词组顺序进行匹配分词。为了减少核心分词词典的负担,本文将分词词典分为核心词典、临时词典和姓名词典三部分,分别对这三部分进行了构建。核心词典:存放绝大多数词条,专门用来匹配分词;本文在提出优化的逆向最大算法的基础上,改进了核心词典结构,以词的首字为索引,将词的尾字作为关键字存储词条,提高词典的查询和匹配效率。临时词典:主要的功能不是查询,而是用于存放词语切分时出现的候选未登录词,统计词频,并向核心词典输送新词。姓名词典:用于存放姓名的相关信息、,解决姓名识别问题。(3)将未登录词识别策略与分词词典相结合,实现中文分词原型系统。通过动态语料库的创建、语料库中未登录词识别、未登录词录入词典、系统整合四个步骤实现中文分词原型系统;通过系统初始化前后的性能测试、和其它分词算法的对比,证明该原型系统对未登录词的识别是可行的,在新词召回率和新词准确率等方面都有所提高。
其他文献
随着互联网的普及,Web已经应用的各个领域,但针对于Web应用程序漏洞的攻击也越来越多,其危害程度也越来越大,虽然采取了多层的安全措施,但应用程序本身的漏洞,这些措施都无能为力,及
演变是未来通信网络发展的主旋律,未来通信网络将会演变成有线网络和无线网络融合的全IP通信网。未来无线通信系统将会把各种提供不同业务的无线接入网络连接到基于IP分组的
随着计算机科学技术的迅速发展以及互联网的普及应用,每天生活中都产生了大量的多媒体数据,这些数据大多数是以图片、视频等形式呈现的。面对如此庞大的且快速增长的多媒体数
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规则自由度大和极其复杂的特点,针对信息抽取
现今,由于信息的存储、传输和处理越来越多地在开放网络上进行,信息易受到窃听、截取、篡改、伪造和重放等各种攻击手段的威胁。在现代的制造业生产流程中,企业与企业之间、部门
近些年来,随着生产制造企业网络规模的不断扩大,对网络的管理变得越来越困难。加上工业网络所处的特殊的环境,很容易造成设备故障,从而给企业带来经济损失甚至是人员伤亡。如
BBS作为一种新兴的交互性强的媒体,越来越受到网民的青睐,成为了新闻、观点和民声的集散地,是网民获取信息和发表评论的重要渠道之一。BBS上的发帖和回帖都围绕一个个话题,而这些
本论文中的应用程序使用C#语言编程实现,该应用程序可以计算往返时间,并能够提供有关数据传输和连接稳定性的信息数据,这些功能对于从事网络管理的工作人员非常有用。   由于
视频运动目标跟踪是当前计算机视觉领域最活跃的研究主题,作为一门跨学科的前沿技术,它融合了图像处理、模式识别、人工智能等多种不同领域的理论知识,广泛应用于军事和民用方面