【摘 要】
:
篇章分析系统性研究的开展依赖于大规模高质量的标注语料.现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求.因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式.该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析.项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标
【机 构】
:
苏州大学计算机科学与技术学院 苏州 215006
论文部分内容阅读
篇章分析系统性研究的开展依赖于大规模高质量的标注语料.现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求.因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式.该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析.项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标注效率和标注质量,可为大规模、协同汉语篇章语料标注打下基础.
其他文献
法律文件数量的快速增长与人工智能的飞速发展,推动了法律领域中机器阅读理解的发展,如罪名预测、证据预测、法律条文推荐等.证据预测是其中一个关键应用,支持问答系统,即在预测答案的同时进行证据预测,预测出的证据用来辅助推断答案.当前法律文书通常包含20句以上的语句,其中可作为直接支撑答案的证据不多,一般不超过3句.证据预测需要从文书的大量语句中寻找和答案相关的证据,难度较大,其过多的样本数据会使不相关语句对预测结果产生干扰.为了过滤法律文书中众多和答案证据不相关的语句,提出了面向法律文书基于语句选择的证据预测方
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛
实体链接是指对于文本中提到的实体指称,在知识图谱中找到它所对应的真实实体的过程.利用实体链接技术可以把网络数据和知识库链接起来,在对数据进行处理时就能运用知识库中的结构化信息,很大地促进了自然语言处理领域的发展.论文提出一种将局部消歧和全局消歧相结合的实体消歧方法.在局部消歧方面,利用BiLSTM+Attention模型捕获文本中实体指称的上下文信息,与知识库中的实体信息进行相似性计算得到候选实体的局部消歧得分.在全局消歧方面,构造候选实体之间的关联图,将实体的局部消歧得分作为每个实体节点的初始得分,利用
现如今,神经网络在基于句序列的机器翻译模型已占据主流地位.但在中英文互译中,仅对单语句进行翻译不仅仅丢失语义信息,还破坏繁杂的逻辑构造,并不符合当代机器翻译需求.鉴于此,提出一种新型基于注意力引导图卷积网络的机器翻译优化模型,可通过多头注意力机制和图卷积神经网络结构的结合保留词元素特征及段落层次结构信息.为了验证基于注意力引导图卷积网络模型是否优于其他传统算法,在WMT21数据集上进行实验,结果表明各指标均达到理想效果.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和
在远程监督(Distant Supervision,DS)实体关系抽取任务中,采用远程监督的方式虽然可以产生大量的标注数据,但是这种方法产生的数据集充满大量的噪声数据,从而会降低关系抽取的性能.为此,我们针对现有深度学习使用浅层和单一深层神经网络模型提取特征的局限,设计了一个融合注意力机制的密集连接卷积神经网络模型——DenseCNN-ATT,该模型采用五层卷积深度的CNN,构成密集连接卷积模块作为句子编码器,通过增加特征通道数量来提高特征传递,减少了特征梯度的消失现象;此外,为进一步减少噪声影响,论文将
索引作为加速数据库查询的一种成熟技术,始终受限于CPU的内存带宽与架构的发展,因此无法在性能上实现质的飞跃.所以使用GPU赋能索引技术来辅助数据库执行查询任务是势在必行的.因此,针对异构环境下索引结构的适应性以及现有GPU索引受限于显存容量导致扩展性不够等问题,提出了一种CPU与GPU协同处理的HPGB+-Tree索引算法.该算法以混合架构的方式重新构建索引结构,使其完全适应GPU的硬件特性,突破CPU内存带宽受限和GPU内存容量受限的双重难关.HPGB+-Tree索引不仅解决了索引异构问题,还充分利用两
命名实体识别是将自然语句中的姓名,地点,组织等实体抽取出来,是自然语言处理的一个上游任务.基于文档级记忆的命名实体识别是将所有识别过的语句信息融入当前待识别的语句中,从而加强当前句子的语义表达,以获得更好的识别效果.鉴于当前文档级记忆的命名实体识别都是将所有记忆信息混合融入当前语句中,忽略了不同标签类别的记忆信息对当前语句的影响不同,论文提出了一种融入分类记忆信息的中文命名实体识别方法,将当前输入语句与记忆模块中已按类别分成B、M、E、S四份的记忆信息利用注意力机制相匹配,找到每个字语义最相近的不同类别的
权益证明共识算法(PoS)虽然有不需要花费算力的优势,但由于权益越高的节点获得记账权的可能性越大,会造成记账节点具有很强的确定性且容易富者愈富,一旦权益最高的节点无法正常记账出块,其余节点仍要重新竞争记账权,存在系统停滞问题.针对这两个缺陷,特提出基于斐波那契分组的重要性证明共识机制(FPoI).首先,引入重要性评估方案,依据节点活跃度、交易量、寻找随机数的时间和信誉值计算每轮中节点的重要性分数iValue;其次,为信誉值设置记账最低阈值,防止信誉值过低但重要性仍高的节点恶意记账;最后,按重要性得分高低排
针对传统时空过程可视化模型的拟合程度和动态性差异,提出了基于感知特征的时空过程可视化模型构建.为了反映出时空过程的平滑效果,将感知特征应用到时空过程模拟中,采用时序间隙提取时空过程的感知特征,将相邻时空数据的变化过程模拟出来.利用视觉变量的定义,提高时空数据变化过程的传达效率,通过划分时空视觉变量,为时空过程选择合适的视觉变量,采用多种视觉变量组合的方式,消除时空信息表达质量的影响因素,实现时空视觉变量的选择.由于时空过程数据的采样方式不同,必须采用时空过程数据模型,来描述时空过程,根据可视化的特点,设计