论文部分内容阅读
基于统计方法的语言计算在中文分词、术语抽取等领域取得了巨大进展。而今,研究人员更多尝试将统计方法与语言学规则相结合,从而进一步提升自然语言自动化处理的准确性。 科学技术领域缺乏大规模人工标注的语料,自然语言处理技术在此领域的应用面临领域适应性的问题。以往的探索中有利用词汇内部字序列研究、常用词句法构词研究或是某一学科内构词特征研究来辅助分词的先例,但鲜见面向提升自然语言处理技术领域适应性的科技词汇构词研究。本研究的目的即在于利用语言学、术语学及认知科学相关理论,对科技词汇内部结构进行描述,并提出一套适用于科技词汇的标注体系,为自然语言处理技术在科技领域的应用提供更多科技词汇构词特征。 本文就以下几个方面对科技词汇构词展开了研究: 第一,对语言学、术语学构词理论进行深入研究,对自然语言处理方法中应用词汇特征一类研究进行了调研,对语言学、术语学相关理论在中文分词及术语抽取领域的适用性进行了研究。 第二,深入分析科技词汇构造过程中的影响因素,提出了影响科技词汇结构的四个过程,即句法-语义过程、认知过程、翻译过程、审美过程。并确定了以语义构词描述为主,句法、韵律分析为辅的标注体系设计思想。 第三,归纳科技词汇构词特征中适宜标注的信息,设计了标注体系。 第四,基于标注体系,应用工具对部分科技词汇进行了构词特征标注,并对标注结果进行定量分析。