论文部分内容阅读
本文针对兴趣点简称检索问题提出了一种基于隐马尔科夫模型的统计模型,该模型抓住了简称的生成规律,能够根据简称找出最可能的全称。此模型在隐马尔科夫模型的基础上,进行了两方面的改进:一方面,针对不同类别、不同长度的全称,对兴趣点全称进行分词,将全称划分划分到机构、公司、行业、区域和未知五类,得到分词片段,这些分词片段又按照长度分为五类,然后在此基础上建立隐马尔可夫模型;另一方面,在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。结合这两个方面,就得到一个从简称到全称的匹配模型,从而实现兴趣点简称的检索。
为了验证模型的实际性能,设计了一个原型系统并进行了测试。实验结果表明,首选准确率达到90%,前五选准确率达到98%。本文还比较了原型系统与现有搜索引擎的匹配率。结果表明,本系统的匹配准确性明显高于现有搜索引擎。