论文部分内容阅读
随着国内外生物医学信息研究的飞速发展,生物医学文献已成指数级别增长,其中绝大多数文献都可在网络上检索。互联网检索生物医学文献已成为研究人员获取最新研究成果的主要途径,然而部分汉语用户要获取最新英语文献时却存在一些困难:首先由于生物医学名词的缩略性、模糊性和多义性,用户难以直接输入准确的生物医学术语进行检索;其次将大量汉语信息人工翻译成英语信息也是很困难的。因此如何从输入文本中自动提取出关键信息和汉英信息的自动翻译成为解决跨语言用户信息检索难题,也是近年来跨语言文本检索研究的热点。
本文利用自然语言处理和机器翻译获取中文文本的关键词信息,并进行了汉英翻译。具体地说,本文主要的研究内容有以下几点:
考察中文分词技术的研究现状后,引入了基于层叠隐马尔可夫模型的中文分词工具ICTCLAS。详细介绍了中文分词的处理思路和部分算法,并利用其接口实现中文分词,同时引入生物医学用户词典,提取生物医学关键词。由于散落的词语仍然具有上下文关联特征,为了更准确的获得关键词信息,本文从一系列词性标记集中遴选出效果最优的对象,对中文词语进行了词性标记(POS)。利用词性特征和设定的语法规则进行语法处理,提取到准确的中文关键词。
在机器翻译模块中,评估了Google Translate API的翻译性能,根据其较高的准确率和用户友好性,选择其对中文生物医学关键词进行汉英翻译。
基于上述研究,设计开发了跨语言医学信息关键词提取系统(CMKES),运用自然语言处理和自动翻译技术对中文生物医学文本进行挖掘,提取英文关键词以供后续的知识发现。该平台实现了对文本的智能挖掘,配合信息检索工具后可以为生命科学相关领域研究的科研工作者或医务工作者提供实时的在线服务。
在大规模的检索结果测试中,与单语检索相比,CMKES准确率可以达到70%-80%,在实际的运用中,由于用户将更多地参考检索结果的前几页信息,在这种条件下CMKES准确率可以达到95%以上。