【摘 要】
:
现有近义词辨析词典往往忽略近义词的细微用法,缺乏对近义词的句法分布、语义特征、组合限制及使用模板的细致描述.针对该问题,基于真实语料,以搭配为载体,以词与词之间的关系为手段,构建了一个近义词辨析知识库,为近义词提供用法和语境知识,包括近义词的搭配词及搭配关系、搭配频率以及近义词在语料库中的句法分布信息、语义特征、语境中的例句等.该知识库用可视化方式呈现近义词的搭配词和近义词的句法、语义和用法知识,表示更加直观,对汉语二语学习者更友好.
【机 构】
:
北京大学中国语言文学系, 北京 100871
论文部分内容阅读
现有近义词辨析词典往往忽略近义词的细微用法,缺乏对近义词的句法分布、语义特征、组合限制及使用模板的细致描述.针对该问题,基于真实语料,以搭配为载体,以词与词之间的关系为手段,构建了一个近义词辨析知识库,为近义词提供用法和语境知识,包括近义词的搭配词及搭配关系、搭配频率以及近义词在语料库中的句法分布信息、语义特征、语境中的例句等.该知识库用可视化方式呈现近义词的搭配词和近义词的句法、语义和用法知识,表示更加直观,对汉语二语学习者更友好.
其他文献
提出一种融合元路径信息的图神经网络模型,用于预测药物-靶标相互作用(GMDTI).首先根据8个数据集中的药物、靶标、疾病和副作用数据以及它们之间的8种作用关系,构建药物-靶标异质信息网络(HIN);然后定义两条元路径来捕获药物-靶标HIN中的不同子结构信息和不同节点间隐藏的语义信息,并应用图神经网络的方法聚合节点的一阶邻居信息和元路径中节点间的语义信息;最后利用端到端的学习方法完成DTIs预测.该方法同时考虑药物-靶标HIN的结构特性和元路径语义信息,有助于学习到更多潜在的药物-靶标作用关系.实验结果表明
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合嵌入的文本分类模型HONLSTM-BERT,利用类别标签之间的层次化结构关系进行自顶向下的层次化文本分类.最后,通过实验与当前流行的文本分类模型进行对比分析,结果表明HONLSTM-BERT
高危型人乳头瘤病毒(High-risk human papillomavirus,HPV)感染是宫颈癌发病的重要因素,但高危型HPV感染引起宫颈上皮恶变的机制尚不清楚.微小RNA (micro RNA,miR)-362-3p是具有抑癌活性的miR,在宫颈癌中表达降低;Nemo样激酶(Nemo-like kinase,NLK)是生物信息学预测得到的miR-362-3p靶基因,在宫颈癌中表达增加.但宫颈癌发病过程中高危型HPV感染与miR-362-3p、NLK的关系尚不清楚.本研究检测了miR-362-3p、
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文本语义匹配模型.
基于传统卷积框架的实体抽取方法,由于受到卷积感受野大小的控制,当前词与上下文的关联程度有限,对实体词在整个句子中的语义欠考虑,识别效果不佳.针对这一问题,提出一种基于残差门卷积的实体识别方法,利用膨胀卷积和带残差的门控线性单元,从多个时序维度同步考虑词间的语义关联,借助门控单元调整流向下一层神经元的信息量,缓解跨层传播的梯度消失问题,同时结合注意力机制捕捉词间的相关语义.在公开命名实体识别数据集和专业领域数据集上运行结果表明,与传统的实体抽取框架相比,基于残差门卷积命名实体算法的速度和精度都有较强的竞争优
人乳头瘤病毒6型(Human papillomavirus type 6,HPV6)是引起生殖器疣与复发性喉乳头瘤的主要病原体之一.为明确2019年济南市1例尖锐湿疣患者的病毒基因组序列特征,本研究提取其尖锐湿疣组织标本总DNA,分两段进行HPV6全基因组PCR扩增和步移法Sanger测序,将拼接后的序列与全球36条不同来源的HPV6全基因组序列进行对比分析.结果 显示,1013/19/JN/CHN/HPV6株(以下简称1013/HPV6)基因组全长8031bp,属于变异谱系B1,与全球不同地区HPV6分
提出一种基于语境相似度的中文分词一致性检验方法.首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使用预训练词向量,对不一致字串所在语境的语义信息进行编码,通过语境间的语义相似度对不一致字串进行分类.在人工构建的36万字分词语料库中进行分词一致性检验,结果表明该方法能够有效地提高中文分词一致性检验的准确率.进一步地,使用3种主流中文分词模型在修正一致性后的分词语料中重新训练和测试,结果表明该方法可以有效地提高分词语料库的质量,3种中文分词模型的F1值分别提高1.18%,1.25%和1
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富输入特征的表达和提高卷积层的空间表征能力;然后在每一路卷积均使用结合层级注意力机制的Bi-LSTM学习时序特征后,拼接多路特征,提高上下文时序特征的学习能力;最后通过全链接层和Softmax
为了探究补体系统与戊型肝炎病毒复制的相关性,分别在HEV感染的A549细胞和BALB/c小鼠中检测C3aR、CD55和CD59蛋白的表达.利用RT-qPCR定量检测细胞和组织中补体的表达,采用免疫组化法检测HEV感染BALB/c小鼠中补体CD59及C5b-9的表达,ELISA检测补体相关炎症因子的变化.HEV感染可以激活补体蛋白C3aR、C5b-9、CD55和CD59的表达,引起补体蛋白相关炎症因子IL-10表达水平下降,IL-12和TNF-α的表达水平的上升,从而导致机体的炎症反应,加剧组织损伤.HEV
了解2018-2019年福州市五岁以下腹泻住院儿童标本中A组轮状病毒(RVA)基因组特征.通过反转录-聚合酶链式反应(RT-PCR)对49份RVA阳性标本进行核酸扩增,对扩增到的40份标本进行全基因组二代测序,获得G1P[8]型RVA毒株7株,G9P[8]型RVA毒株33株.根据VP7节段分型,40株RVA毒株中有30株G9-Ⅵ亚型、3株G9-Ⅲ亚型和7株G1-Ⅰ亚型;根据VP4节段分型,40株RVA毒株均属于P[8]-3亚型.全基因组核苷酸序列分析表明,除了VP7节段外,序列差异比较大的有NSP4和NS