中文自动分词系统的研究与实现

被引量 : 0次 | 上传用户:williamchu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词已成为自然语言处理的研究热点与难点。本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。本论文的主要叙述过程如下:首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。
其他文献
唐玄宗时,社会达到了其繁荣的最高峰,然而繁荣背后潜藏着危险,这一时期,也是唐代由盛转衰的转折点。而唐玄宗时期的几项制度此时也发生了巨大的变化,如均田制、租庸调制、府
取保候审是指侦查、起诉和审判机关在刑事诉讼过程中,对被刑事追诉而又未被羁押之人,为防止其逃避侦查、起诉和审判,责令其提出保证人或交纳保证金,并出具保证书,以保证随传
载人飞船对密封的可靠性要求很高,其密封性能的好坏将直接影响宇航员的生命安全。本文研究的舱门及其主轴密封结构是某型号载人飞船的密封装置,其中主轴密封机构是由橡胶O形
本研究采用字母测试、语音意识测试、读写能力测试等实验范式,考察了中国英语学习者的字母名称知识水平、字母语音知识水平、语音意识水平等三种因素与早期单词读写能力的相
【正】 江文也的钢琴作品,无论是其民族形式方面的风格,还是写作技术、技巧方面的风格都经历了引人注目的、令人感兴趣的变化。这种变化的根源,在于江文也的特殊经历.关于江
职业倦怠是现代人的一种负面心态,影响工作绩效和个人身心健康。对于教师群体的职业倦怠的研究中前人对教师群体的研究样本主要集中在中小学教师,近年来对高校教师的职业倦怠
焦点是跨越了句法、语义、音系的接口。焦点助词主要包括有层级焦点助词、排他焦点助词(限制焦点助词)和附加焦点助词。前人对以汉语普通话为母语的儿童习得焦点助词研究主要
对乳杆菌分类鉴定及其多样性研究是开发利用乳杆菌的基础。本课题在建立了对乳杆菌进行分类的ERIC-PCR和AFLP的试验体系的基础上,首次对来自西藏、新疆及云南不同地区少数民
朝川矿位于朝川矿区东部水文地质条件复杂区,随着开采深度的增加,底板岩溶水害问题日趋严重。为此,探明矿井水文地质规律,评价底板突水的危险性对矿井水害防治工作的开展有重
中国民用机场行业作为一个新兴的行业,从诞生到发展只经历了十几年时间。在这短短的十几年内,全国的民用机场从一个相对封闭的半军事化管理单位,发展到现在,成为一个自主经营