【摘 要】
:
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义
【基金项目】
:
国家自然科学基金资助项目(60773100)
论文部分内容阅读
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。
其他文献
目的:探讨外伤性膀胱破裂的诊断及治疗方法,提高外伤性膀胱破裂的临床诊治水平。方法对23例外伤性膀胱破裂患者的病因、类型、临床表现、诊断方法、治疗方法及效果进行回顾性总
为了确定4^1-100综采工作面矿压显现规律及评价液压支架的适用性,采用矿压观测仪器对该工作面矿压数据进行监测,运用数理统计的方法分析了该面的矿压显现参数,得出了4^1-100综采
大整数模幂乘运算一直是制约RSA广泛应用的瓶颈,本文在对传统算法剖析的基础上,提出了一种新的快速模乘算法,借鉴生成Wallace tree的思想,结合查找表和并行乘法运算进行RSA模幂运
本文首先介绍了Gaussian计算中方法的选取,进而把这些方法作了比较,而且对基组的选择作了整体的分析.并以2,4-DNT为例,采用不同的基组进行了计算,将计算结果与实验结果进行了