基于中文兴趣点简称的检索方法研究与原型系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:aiwan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对兴趣点简称检索问题提出了一种基于隐马尔科夫模型的统计模型,该模型抓住了简称的生成规律,能够根据简称找出最可能的全称。此模型在隐马尔科夫模型的基础上,进行了两方面的改进:一方面,针对不同类别、不同长度的全称,对兴趣点全称进行分词,将全称划分划分到机构、公司、行业、区域和未知五类,得到分词片段,这些分词片段又按照长度分为五类,然后在此基础上建立隐马尔可夫模型;另一方面,在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。结合这两个方面,就得到一个从简称到全称的匹配模型,从而实现兴趣点简称的检索。 为了验证模型的实际性能,设计了一个原型系统并进行了测试。实验结果表明,首选准确率达到90%,前五选准确率达到98%。本文还比较了原型系统与现有搜索引擎的匹配率。结果表明,本系统的匹配准确性明显高于现有搜索引擎。
其他文献
  The first-principle method based on the density function theory was used to investigate the formation energy,the migration barrier energy of first nearest n
会议
2011年3月11日发生的日本东北大地震(Mw9.0)是自21世纪以来全球第二大地震,是发生于太平洋板块与北美板块间的典型低角度逆冲型地震。由于地震断层的慢滑动和地幔的黏弹性,大型
  Searching for low-cost non-Pt catalysts for oxygen reduction reaction(ORR)has been a key scientific issue in the development of fuel cells.In this work,the
会议
我国地域辽阔,物产丰富,农业资源类型众多,区域差异大。对于区域农业资料的记录和查询,多以依赖于年鉴志和区域性农业记载资料。如果在科研和生产中想全面了解具体某种农业资
摘要:英语教学中的“哑巴英语”一直困扰着教师。英语口试是解决这一困境的有效手段之一。笔者针对解决此问题进行尝试,通过对英语口试中凸显出的考试方式、语言环境和语言输入三个方面探讨了“哑巴英语”的现象。同时,分别从交际情境的创设、人际交往氛围的营造、听力训练的加强以及社会文化知识的充实四个方面提出了解决策略。  关键词:英语口试;交际情境;人际交往;语言输入;哑巴英语  中图分类号:G632.0 文献
会议
进入了信息时代,信息通信产业已成为国民经济的支柱产业。信息产业的发展和融合,调整和变革成了主流;普及化、全球化、多样化、个性化和向多媒体化方向发展在社会需求、技术进步
会议
  Seeking high-energy density materials(HEDMs)with large exothermicity,significant kinetic stability is the ultimate target in the related material field.A th
会议
随着计算机、网络、通信技术的飞速发展,以及公安部门加强对。科技强警”的重视,公安信息化建设与应用水平也有了很大的进步与提高。公安部“金盾工程”的正式启动,更是全国各级