中文化学物质名称识别研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:seraph_gigi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体的识别是自然语言处理工作的基础,更是推动信息抽取、信息检索、机器翻译等信息工作进一步发展的保证,因此,如何将各种文本中的命名实体识别出来以供检索成为一个关键的问题。   特定领域文本中的命名实体往往包含领域知识,不同领域的命名实体之间往往在构词方式、词汇长度、内部结构之间相差较大,为了提升命名实体识别工作的效果,一个重要的途径就是在专有领域中进行专有名词的识别。   目前,专有领域命名实体的识别方法主要有基于字典的方法、基于规则的方法、基于统计机器学习的方法以及以上三种方法的交叉使用,并以基于统计机器学习的识别方法使用最多且取得的效果最佳。   本文以有机化学领域为背景,使用基于统计机器学习的方法进行中文化学物质名称的识别。为了比较不同统计机器学习算法的识别效果,分别使用支持向量机(SupportVector Machine,SVM)和条件随机场(Conditional Random Fields,CRFs),并选取相同的特征在相同的训练样本中进行训练,再将得到的两个识别模型(Model)在相同的测试样本中进行测试,从而得到两种算法的识别结果。同时,为了比较字一级序列标注和词一级标注的识别效果,本文在这两种序列标注下分别采用SVM和CRF进行实验,实验结果表明,字一级序列标注下两种算法的识别效果均好于词一级序列标注。   另外,实验还研究了从特征的选择角度进行算法识别性能的提升,与以往研究侧重特征的甄别和选取不同,本文从特征值区间的合理划分出发,考察特征值不同分档下,SVM和CRF的识别效果。实验发现,合理特征值区间划分可以提升CRF的识别性能,但对SVM影响不大,同时实验中还发现,字一级序列标注下的识别效果相对于词一级序列标注对特征值分区的变化更加敏感。
其他文献
现代体能训练应达到量与强度同步提高.强度是比赛负荷的核心问题.不同强度训练负荷能帮助柔道运动员学习和改善技术,发展所需要体能并能促进复原过程.次序安排是先低强度负荷
期刊
篮球起源于美国,是奥运会比赛的核心项目,由于其对抗性、观赏性、趣味性、健身性被世界各地的人民所喜爱.我国篮球事业自上个世纪九十年代以来取非常大的进展,逐步向职业化过
借鉴Proper和Bruza的信息载体概念,从智力资源实体等四方面总结和分析知识服务模式。提出人和信息系统的“认知”能力主要表现为知识载体的通信能力;人作为智力资源实体提供
全民健身热潮推动了许多创新大众健身运动项目的诞生,健身手拍鼓作为一项全新的受广大中老年人喜爱的新运动项目,亟待通过运动生理学的实验法探究其健身功效.本文对运动生理
纸质档案在长时间的保存和利用过程中,由于纸张材料耐久性的下降以及各种外界因素的影响,纸张难免会老化甚至毁坏。这将严重危及档案安全并造成巨大损失,因此保护和抢救纸质档案
2001年底国家体育总局根据国务院反邪教办公室的精神,对传统功法进行了整理创编,适时推出四种新编健身气功(五禽戏、易筋经、八段锦和六字诀),并且于2004年初开始在全国试行
通过对人肉搜索概念、流程、特征的分析,认为人肉搜索是一个典型的信息挖掘动态过程,通过对信息的反复求证与辨伪,最终实现信息价值的增值,与竞争情报工作有相似之处。并从技
目的 了解武宁县城区老年人高血压患病率及危险因素.方法 收集武宁县城区老年人健康体检资料,建立居民健康档案并整理分析相关数据.结果 武宁县2018年城区≥65岁人群参加体检
本文主旨通过测试长期规律的长跑组和无锻炼组的静态平衡能力和动态平衡能力,探讨长跑运动对于中老年人身体平衡能力的影响,从生理机制上分析长跑与中老年人平衡能力的关系,