汉语科技词汇构词研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:feihuaxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于统计方法的语言计算在中文分词、术语抽取等领域取得了巨大进展。而今,研究人员更多尝试将统计方法与语言学规则相结合,从而进一步提升自然语言自动化处理的准确性。  科学技术领域缺乏大规模人工标注的语料,自然语言处理技术在此领域的应用面临领域适应性的问题。以往的探索中有利用词汇内部字序列研究、常用词句法构词研究或是某一学科内构词特征研究来辅助分词的先例,但鲜见面向提升自然语言处理技术领域适应性的科技词汇构词研究。本研究的目的即在于利用语言学、术语学及认知科学相关理论,对科技词汇内部结构进行描述,并提出一套适用于科技词汇的标注体系,为自然语言处理技术在科技领域的应用提供更多科技词汇构词特征。  本文就以下几个方面对科技词汇构词展开了研究:  第一,对语言学、术语学构词理论进行深入研究,对自然语言处理方法中应用词汇特征一类研究进行了调研,对语言学、术语学相关理论在中文分词及术语抽取领域的适用性进行了研究。  第二,深入分析科技词汇构造过程中的影响因素,提出了影响科技词汇结构的四个过程,即句法-语义过程、认知过程、翻译过程、审美过程。并确定了以语义构词描述为主,句法、韵律分析为辅的标注体系设计思想。  第三,归纳科技词汇构词特征中适宜标注的信息,设计了标注体系。  第四,基于标注体系,应用工具对部分科技词汇进行了构词特征标注,并对标注结果进行定量分析。
其他文献
论文零被引在科学界已成为一种普遍现象,为了解零被引论文的影响因素,本文通过对军队医学期刊零被引现状进行研究,从不同角度对军队医学期刊零被引的影响因素进行相关性分析,并利
《马拉喀什条约》是国际著作权体系中的历史性条约,其为便利视力障碍者获取出版作品提供了众多的例外与限制。《马拉喀什条约》所规定的被授权实体概念为中国图书业便利视力
在信息、知识、情报正在成为最重要的生产要素和战略资源,智力资本正在成为最重要的组织资产和竞争工具的今天,竞争情报的崛起是人类在社会信息化基础上向情报(智能)化发展的重要
研究背景:20世纪90年代以来,头孢类等广谱抗菌素的滥用使得抗菌素的耐药性日益严重,新抗菌素的更替也使得抗生素类药物的生命周期缩短。相对于头孢类等抗感染药物,喹诺酮类药物具
从新制度经济学有限理性的经济人假设前提出发,借用威廉姆森的“资产专用性”概念,将有效率的信息组织形态归结为信息市场形态、中间体组织形态、组织内部形态和有管制的组织
地域范围张家界菊花芯柚农产品地理标志地域保护范围包括永定区西溪坪街道办事处、阳湖坪街道办事处、枫香岗街道办事处、后坪街道办事处、沙堤街道办事处、茅岩河镇、新桥镇
期刊
近年来,国家在不断地加大对基础教育的投入和对基础教育改革的力度,这给基础教育事业提供了良好的发展前景,也给各级基础教育学校的发展提供了良好的契机。  教学质量是教育的
2012年教育部新发布的《普通高等学校本科专业目录》中,信息资源管理成为基本专业,这是为了满足培养信息职业人才需求的变革,但也给图书馆学本科教育带来了巨大挑战。图书馆
  本文以广州大学城资源共建共享为论题,研究了入城高校图书馆文献资源共建共享的现实问题,为了优化资源配置,降低办学成本,提高教育效益,促进大学城教育资源共建共享。本文主要
教育教学质量是学校的生命,它关系着一所学校的生存和教育的发展。全面提高教育教学质量是学校的中心工作,是学校工作永恒的主题、主旨和主线。课堂教学是提高教学质量的主渠道