【摘 要】
:
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库
【机 构】
:
清华大学计算机科学与技术系,清华大学人工智能研究院,清华大学智能技术与系统国家重点实验室
【基金项目】
:
国家重点研发计划(2020AAA0106501)。
论文部分内容阅读
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,
其他文献
天然膳食植物纤维泛指不能被任何直接消化的多种含糖类和高碳水化合物及多种木质素的食物总称, 由一种水溶性天然膳食植物纤维和非天然水溶性两种膳食植物纤维混合组成。SDF
当前影响世界经济复苏的因素有很多,最主要的有六个方面。第一,欧洲部分国家的主权债务危机问题。虽然欧盟联合国际货币基金组织建立了7500亿欧元
At present, there are ma
通过调节粮糟比、增加排酸时间、改变量水加入方式、提高曲药粉碎度,使入窖水分降低了约5 个百分点,控制在52%-54% 范围,并对发酵生产的原酒的理化指标、感官特征和色谱数据进行
近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部
随着中国现代科技技术水平的不断提高,机械化、自动化、智能化的现代化养猪设备在大型猪场迅速得到推广研究应用。存在的主要问题包括近年来生猪市场价格方面有所提高等,大部分
电子病历中的临床术语描述形式具有多样性和不规范性,阻碍了医疗数据的分析和利用,因此对临床术语标准化的研究具有重要的现实意义。当前国内医疗机构临床术语标准化主要由人
地理综合题一直是学生的一大难点,失分率之高让老师、考生自己瞠目结舌。其中的原因主要有:审题不仔细、读图能力差、概念掌握不准确、知识应用欠灵活、语言表达能力不强、思
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋
随着人们收入的增长和安全意识的加强,我国目前对生鲜农产品品质要求进一步提升,生鲜农产品供应链管理是提高流通效率保证品质的重要抓手,因此研究生鲜农产品管理尤为重要。通过
属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一。现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些