基于CBOW模型的领域术语自动抽取研究

来源 :第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛 | 被引量 : 0次 | 上传用户:lvxiaoyongheyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对术语生成方式和结构特点,提出了一种基于词部件扩展和神经网络相结合的术语抽取方法。利用语言模型抽取出可能的候选术语集,利用神经网络的词向量计算方法计算出每个词扩展部件的向量空间模型,利用余弦相似度判断各个词扩展部件间的内部关联强度,实现对候选词集的初步过滤,结合PageRank算法,来统计候选集中的领域代表性,借此对领域内的术语词汇完成精确提取。经过实验,也得到了相对较好的结果。但由于实验采集的数据集的限制,词扩展部件的向量计算和词领域代表性计算可能不精确,随着训练数据集的加大,实验得到的准确率和召回率可以进一步提升。
其他文献
  本文揭示虚拟型社会资本对农民工扩展社会资本、信息获取及其在社会融入过程中所发挥的作用。本文引入社会资本理论,构建虚拟型社会资本对链接型社会资本和信息获取的影响
  本研究为了从一个全面的视角探索公众获取政府信息的信息源选择影响因素,采用了扎根理论的方法,采访了37位调查对象,提出了一个整合的公众获取政府信息的信息源选择理论框架
  本文主要围绕以“患者为中心”的目的,分析了医疗大数据的特点,介绍了当前国内对健康信息的需求现状,以医学检验数据(LIS)为研究实例,列举了数据加工、数据挖掘、智能分析等
  学科资源网络对发布文献的组织有较强的随意性和弱关联性,致使关联文献检索的精确性降低。关联数据则能够以其机器可读、可分类和数据关联性有效地弥补了学科网络信息组织
会议
  依据移动商务环境下虚拟产品服务的特点,提出了由移动性、可靠性、响应性、安全性、情感投入和补偿性等6个维度构成的移动商务环境下虚拟产品服务质量评价指标体系;并通过
  高校哲学社科学者是高校哲学社科研究的主体,其学术研究国际化意愿对学术成果“走出去”有重要影响。首先通过扎根理论方法构建以信仰、感知成本、期望、社群条件、促成条
互联网时代,网络舆情的庞大数据规模和舆情分析的计算复杂性,使对网络舆情的分析和实时掌控变得愈发困难.面向快速、不断产生的流数据进行实时处理的分析模型,在时效性、突发
一、四川博物院藏《十八罗汉》唐卡组画概况四川博物院藏有一套清代《十八罗汉》唐卡组画(图1),共9幅1,每幅以两位罗汉为中心进行描绘,其中两张唐卡分别绘一位罗汉及两位天王
本文在梳理归纳大数据环境下中国现有政务数据资源的基础上,引入服务创新四维度理论,以数据为基础,构建了含概念创新、传递创新、界面创新、技术创新在内的政府信息服务创新
为研究玉米大斑病菌漆酶基因在黑色素合成及致病过程中的作用,本研究首次发现漆酶可以促进玉米大斑病菌在寄主玉米组织中的扩展;利用同源重组的方法获得了玉米大斑病菌漆酶基