跨语言医学信息挖掘中关键词提取方法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:fan8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内外生物医学信息研究的飞速发展,生物医学文献已成指数级别增长,其中绝大多数文献都可在网络上检索。互联网检索生物医学文献已成为研究人员获取最新研究成果的主要途径,然而部分汉语用户要获取最新英语文献时却存在一些困难:首先由于生物医学名词的缩略性、模糊性和多义性,用户难以直接输入准确的生物医学术语进行检索;其次将大量汉语信息人工翻译成英语信息也是很困难的。因此如何从输入文本中自动提取出关键信息和汉英信息的自动翻译成为解决跨语言用户信息检索难题,也是近年来跨语言文本检索研究的热点。   本文利用自然语言处理和机器翻译获取中文文本的关键词信息,并进行了汉英翻译。具体地说,本文主要的研究内容有以下几点:   考察中文分词技术的研究现状后,引入了基于层叠隐马尔可夫模型的中文分词工具ICTCLAS。详细介绍了中文分词的处理思路和部分算法,并利用其接口实现中文分词,同时引入生物医学用户词典,提取生物医学关键词。由于散落的词语仍然具有上下文关联特征,为了更准确的获得关键词信息,本文从一系列词性标记集中遴选出效果最优的对象,对中文词语进行了词性标记(POS)。利用词性特征和设定的语法规则进行语法处理,提取到准确的中文关键词。   在机器翻译模块中,评估了Google Translate API的翻译性能,根据其较高的准确率和用户友好性,选择其对中文生物医学关键词进行汉英翻译。   基于上述研究,设计开发了跨语言医学信息关键词提取系统(CMKES),运用自然语言处理和自动翻译技术对中文生物医学文本进行挖掘,提取英文关键词以供后续的知识发现。该平台实现了对文本的智能挖掘,配合信息检索工具后可以为生命科学相关领域研究的科研工作者或医务工作者提供实时的在线服务。   在大规模的检索结果测试中,与单语检索相比,CMKES准确率可以达到70%-80%,在实际的运用中,由于用户将更多地参考检索结果的前几页信息,在这种条件下CMKES准确率可以达到95%以上。
其他文献
中国野生动物摄影高端论坛由中国艺术研究院摄影艺术研究所、《中国摄影家》杂志社发起,旨在规范中国野生动物摄影行为,呼吁社会各界加强野生动物的保护和管理。目前已举办三
水平管降膜蒸发方式具有传热效率高、传热温差小等优点,因此在多效蒸发海水淡化装置、制冷系统、石油化工等行业的蒸发器中得到非常广泛的应用。本文以海水多效蒸发中的水平
该文首先针对采用美国Babcock & Wilcox公司技术的3.52MWW型炉进行了冷模试验研究,详细研究了一、二次风风量比、内外二次风旋流强度以及内外二次风风量比对燃烧器出口流场的
血糖无创检测技术是当今仪器科学、生命科学研究的一个热点。由于近红外光谱技术具有快速、高精度、不消耗试剂、无创等特点,使近红外血糖无创检测技术成为主要的研究方向之
该文以汽轮机调节系统虚实试验装置为开发背景,着重研究了调节系统液压控制回路性能检测与故障诊断的数据处理方法,基于Windows95平台完成了调节系统虚实试验装置的数据采集
在飞机发动机的研制中,喷管中的气动分析是飞机发动机计算和设计的基础,喷管流场的计算是估算推进系统推力的基础,喷管流场的研究是最重要和最关键的课题之一.该文采用工程力
今本《诗经·关雎》悠哉悠哉,安大简作舀才舀才.《安徽大学藏战国竹简》注释曰:舀才舀才,《毛诗》作悠哉悠哉.马王堆汉墓帛书《五行》引作?才?才.上古音舀属喻纽宵部,悠属喻
期刊
高分辨率、大容量的医学图像数据为临床诊断提供了有力的辅助工具,同时它也增加了读片医生的工作负担。在此背景下,开展计算机辅助诊断的研究,已经成为了医学图像处理与分析
该文内容发三部分.第一、三部分基于三维贴体坐标系统,数值模拟了短环燃烧室的三维冷态流场和某型燃烧室火焰筒的三维气膜冷却效果,两者都利用椭圆型策分方程生成贴体网格,采
现在大量的工业化活动如采煤业、冶金业、造船业等给环境和水留下的大量有毒重金属污染,给我们的生活生产带来了危害,因此需要对水质环境等进行实时的重金属检测。而目前实验人