【摘 要】
:
近几年以来,网络上的文本数据越来越多对海量的文本数据如何进行有效的管理已成为信息管理领域中热门的研究内容之一。信息管理领域首要的任务就是理解文本的语义,其中句子相似度的计算就是常用的方法之一,它在智能客服、机器翻译、信息检索等领域有着广泛的应用。本文重点研究了中文问句相似度计算的问题,具体内容如下:经调研发现目前的中文问句相似度计算模型存在以下几个问题:一、模型的性能依赖于中文分词技术的准确性;二
论文部分内容阅读
近几年以来,网络上的文本数据越来越多对海量的文本数据如何进行有效的管理已成为信息管理领域中热门的研究内容之一。信息管理领域首要的任务就是理解文本的语义,其中句子相似度的计算就是常用的方法之一,它在智能客服、机器翻译、信息检索等领域有着广泛的应用。本文重点研究了中文问句相似度计算的问题,具体内容如下:经调研发现目前的中文问句相似度计算模型存在以下几个问题:一、模型的性能依赖于中文分词技术的准确性;二、大部分模型无法充分关注中文问句本身的特征;三、使用TextCNN进行句子相似度计算时会丢弃大量的语义信息;四、由Word2Vec训练得到的词向量无法解决一词多义问题。针对上述第一个和第二个问题,对BiLSTM模型进行改进提出了一种融合字向量、自注意力机制的SA-BiLSTM中文问句相似度计算方法进行改善。字作为中文中最小的组成单位,其本身就包含了丰富的语义信息。且字的数量级远远低于词语的数量级,在一定程度上降低所要表示文本的维度。同时中文问句作为短文本数据存在特征稀疏性强的特性,为此引入自注意力机制充分考虑句子内部间的关系使得模型能够获得句子词之间更多的依赖关系,从而使得模型能够获得更多的语义特征。在本文第三章基于SA-BiLSTM的中文问句相似度计算方法的实验里证明字向量和引入自注意力机制的有效性。针对上述第三个和第四个问题,对TextCNN模型进行改进提出了BertCNN-S模型对问题进行解决,BertCNN-S模型主要由Bert所表示的词(字)向量、SiameseCNN作为基本网络结构、SoftPool池化方法组成。使用Bert模型训练得到的词向量能够包含多种语义信息,能在一定程度上解决一词多义问题。使用SoftPool池化方法是对TextCNN中的最大池化方法进行改进,目的是为了保留池化层功能的同时能保留更多的语义特征。本文第四章提出了一种基于BertCNN-S的中文问句相似度计算方法,实验结果验证了Bert模型表示的字向量的有效性,同时也验证了SoftPool池化不仅在图像领域的有效性,在自然语言处理领域也有着不错的效果,能够保留更多的语义特征信息。
其他文献
信息化时代互联网正在快速地发展,大多数人都会利用网络来传递信息,与此同时信息的安全问题也受到广泛的关注。数字图像是信息的重要载体,为了保证数字图像信息的安全,对图像进行加密是最有效的方法之一。本文提出了两种基于五维超混沌系统的彩色图像加密方案,具体内容如下:(1)设计了一种结合SHA-256函数和五维超混沌系统的彩色图像加密方案。引用SHA-256函数计算明文图像的哈希值来控制Arnold映射的系
虚拟手术仿真技术可用于低年资医师手术训练,避免在实际手术中出错。然而大多研究者都是针对传统的手术操作开发虚拟手术系统,少有人针对电切割这类新兴手术操作搭建虚拟手术平台。本文针对现有的虚拟手术仿真中存在的问题:(1)模型孔洞问题;(2)手术烟雾仿真计算负担较大;(3)涡粒子烟雾难以施加碰撞边界条件;(4)烟雾与虚拟手术系统结合难,开发了一套包括切割肺组织和电凝肿瘤组织的电切割虚拟手术系统,解决了虚拟
目前,随着人工智能的快速发展,基于人工智能的算法被广泛应用在生活中各个方面。其中基于计算机视觉的算法发展尤为迅速。分类与回归问题是计算机视觉中最为常见的两类问题。计算机视觉研究大多围绕这两类问题展开。随着深度学习的发展,越来越多的算法被提出来解决这些问题。其中注意力机制是最近比较热门的一个研究方向,被应用到计算机视觉问题中来解决各种相关问题。本文主要研究注意力机制在计算机视觉中分类和回归两类问题中
随着互联网不断融入到社会经济和日常生活中,人们已习惯于进行各种在线信息查询和交互行为(如数据检索、信息查询、网络购物、社交、导航等),网络数据、信息的数量及其应用飞速增长,导致如何在海量信息中,准确、快速获得所需要的信息成为近年来的研究热点。其中,各类推荐系统作为一种解决该问题的有效方法,尤其是协同过滤算法,已经取得了不少的研究成果并被广泛应用。然而,相关算法在稀疏性、冷启动、抵御托攻击等方面,仍
随着卷积神经网络技术的飞速发展,人脸识别成为模式识别与人工智能领域研究的热点。传统人脸识别方法主要依靠特定场景的手工特征进行特征提取,鲁棒性较差,应用场景受限。而基于卷积神经网络的人脸识别方法通过多层级联的复杂线性结构直接从人脸样本图像中提取区分度更高、更具有表达能力的人脸特征信息,从而提高人脸识别准确率。人脸识别技术的核心在于如何提取强区分性的人脸特征,鉴于此,本文聚焦于特征提取网络结构,对基于
随着数据爆炸时代的到来,如何高效快捷地挖掘出冗余数据中有价值的信息变得越来越重要。聚类分析是一种无标签、无监督学习的数据挖掘技术,可以在低成本的情况下发现数据中有价值的信息。模糊C均值算法(FCM)就是聚类分析中的一种典型算法,它在K-means算法的基础上加入模糊集理论,被广泛应用到各个领域中。但是,模糊C均值算法对初始聚类中心较敏感且鲁棒性不强。针对这些问题,本文提出了一种改进的核模糊C均值算
在数字图像处理技术高速发展的今天,图像配准作为图像识别领域的热门研究方向,在医学影像处理、遥感图像处理、计算机视觉以及人脸识别等领域有着极为广泛的应用。图像配准技术发展到今天,经过几代学者孜孜不倦的钻研探索,在图像识别领域已经提出了很多种性能优秀的配准算法。在这些配准算法中,尺度不变特征变换(SIFT)特征具有良好的尺度不变性,对图像的旋转、缩放、光照变化以及噪声都有着不错的容忍性。尺度不变特征变
随着微电网在电力行业的快速发展,微电网电能交易开始走向市场化,对微电网电能可信交易的研究具有重要的理论研究价值和社会价值。现有基于区块链的微电网电能可信交易存在以下问题。问题一是现有基于区块链的微电网电能可信交易模型大都针对某一特定层面,忽略整个模型数据间的联系与交互问题,导致模型缺乏灵活性。并且,现有基于区块链的微电网电能可信交易模型使用单链存储方式,导致模型产生的所有数据都进行了大量重复存储,
身份感知的面部表情识别是近年来面部表情识别领域的一种重要的模型设计思路,其旨在降低或避免面部图像间的特征差异干扰面部表情识别模型,减少人与人的特征差异而提升不同表情之间的差异。近年的研究为身份感知提供了两种实现思路,第一种采用扩大类外差异、缩小类内差异的策略提升识别精度;第二种采用当前热门的生成对抗网络进行图像的风格迁移,通过真实图像与生成图像间的差异性,获得预测分类结果。本文基于生成对抗网络的身