论文部分内容阅读
本研究针对汉语外国译名识别的难点,基于最大熵算法提出了一种基于规则与统计相结合的识别方法,充分考虑了外国译名的内部特征(小颗粒特征)和人名的语境信息。本文的主要贡献是:将概率信息赋予最大熵模型,建立自信度函数。提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名,极大提高了人名的准确率和召回率。整体人名测试结果表明,人民日报(199801)的召回率为90.06%,准确率为89.27%。实验结果证明:本文提出的外国译名识别方法是非常有效的。