【摘 要】
:
中文自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,在很多领域扮演着非常重要的角色。中文自动分词系统是利用计算机对中文文本进行词语自动切
论文部分内容阅读
中文自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,在很多领域扮演着非常重要的角色。中文自动分词系统是利用计算机对中文文本进行词语自动切分的系统。我国很早就开始了这一方面的研究工作,己经取得了很多成果,涌现出大量的基于各种算法的分词系统。但是真正满足实际需要的分词系统还没有出现,有待于进一步深入探讨。
本文对已经出现的分词算法进行了总结,对各种算法进行了优缺点的分析,并结合汉语本身的特点指出了影响分词系统性能提高的主要因素。
本文的主要工作是:针对中文分词系统实现中的主要难点——歧义切分和未登录词识别,进行了一些有意义的探讨,提出了一种基于改进的全切分算法的粗分模型和基于碎片提取的未登录词处理相结合的方法。
按照通用的、已经成为标准的分词系统评价标准(准确率P,召回率R和平均值F),对基于该方法的分词系统进行了小规模开放测试,试验取得了比较好的结果,说明该方法对以后的自动分词研究有一定的参考价值。
文章的最后分析了系统中存在的问题,并提出了对未来分词系统的展望。
其他文献
1920年10月16日,瞿秋白以北京《晨报》、上海《时事新报》社特派记者的身份离京赴俄,翌年6月,他与张太雷等出席了在莫斯科举行的共产国际第三次代表大会(1921.6.22-7.12,以下
设计意图根据《幼儿园教育指导纲要(试行)》中“充分利用自然环境和社区的教育资源,扩展幼儿生活和学习空间”的指导精神,在参与我园“利用地域文化资源,构建生活化课程”课
设计意图一天,班上家长告诉我,孩子在家边说边比划,也无法说出在班上最要好的小朋友是谁。这不由得引起我的思考:小班幼儿年龄小,又习惯于以自我为中心,在日常活动的时候,还
设计意图“叶子”主题活动进行一段时间了。孩子们饶有兴致地收集了各种各样的叶子,对其特性有了一定程度的认识。一天,一帆小朋友从家里带来一段葱管,很神秘地告诉大家:“我
在化工、建材等生产领域,粉状和颗粒状物料的计量是一个常见问题。固体物料流量测控系统的研究和设计还不够成熟,在测量精度和系统集成度等方面存在诸多改进余地。冲量式固体流量计是测控系统中的测量仪器。在收集现有国内外资料,总结以往经验,借鉴他人设计思路的基础上,讨论了对冲量式固体流量计的改进方案:优化传感器选型和电路设计以提高测量精度,集成自动控制功能以简化测控系统整体设计;分析了与设计密切相关的实时性、
随着社会经济的高速持续发展,城市道路堵塞、拥挤、事故频发等等现象日益严重,交通已成为城市发展的“瓶颈即,鉴于交通流的高度复杂性和随机性,难于对其进行数学建模,传统的控制方
利用锆基催化剂合成乙酸酯,具有较高的催化活性,催化剂使用寿命长,同时具有较高的选择性.rn
中共山东省委八届十四次全会决定并报经中共中央批准,中国共产党山东省第九次代表大会(以下简称“省第九次党代会”)将于2007年6月在济南召开,山东省委就此印发了《关于省第
室内甲醛污染对人体健康的影响是相当大的,本文主要针对室内甲醛污染现状及防御对策进行分析.
随着现代化工业的不断发展,伺服系统在许多领域的应用日益广泛,对其性能要求也越来越高。系统不但要具有快的动态响应和高的动、静态精度,而且要对参数的变化和扰动具有不敏