【摘 要】
:
移动互联网技术的不断发展以及网络应用软件的普及,使得人们已经习惯在社交媒体,技术博客等各种新兴网络平台上发表自身的观点和看法。大家各抒己见促进了社会的进步。但随之而来也有很多问题,比如网络暴力,性别歧视等,这些问题给人们的生活带来了不可忽视的影响。因此,对网络中带有恶意的评论进行识别是很有意义的工作。但随着全球化进程的不断加快以及全球网民数量的不断增加,互联网当中的语言开始变得多种多样,有些软件中
论文部分内容阅读
移动互联网技术的不断发展以及网络应用软件的普及,使得人们已经习惯在社交媒体,技术博客等各种新兴网络平台上发表自身的观点和看法。大家各抒己见促进了社会的进步。但随之而来也有很多问题,比如网络暴力,性别歧视等,这些问题给人们的生活带来了不可忽视的影响。因此,对网络中带有恶意的评论进行识别是很有意义的工作。但随着全球化进程的不断加快以及全球网民数量的不断增加,互联网当中的语言开始变得多种多样,有些软件中还包括多种语言。如果对于互联网中的每一种语言都建立相应的模型进行评论识别,显然不论从语料的搜集上,还是从模型的创建和应用上都有一定的困难。所以,使用跨语言模型对多语言网络评论进行识别是很有必要的。本文研究多语言网络评论分类问题,主要工作包括改进跨语言模型中提取文本特征的方法以及评估不同文本分类算法的分类效果,具体而言包括如下几点:1.本文对近年来四种较有代表性的跨语言模型进行理论方面的阐述,并对四种模型的分类效果做出对比实验。四种模型分别为m BERT、XLM、Unicoder、XLM-R。在理论叙述的基础上,本文又对四种模型进行了实验分析。实验结果表明,XLM-R模型的准确率及AUC值最高。因此后续研究以XLM-R模型作为主体。2.针对XLM-R模型如何获取更多文本特征的问题,本文提出对其网络结构进行改造的方法。具体是将XLM-R模型的第10、11、12层(后三层)进行拼接,构造出XLM-R-3模型。实验结果表明,XLM-R-3模型的准确率和AUC值高于初始模型及其它拼接模型。之后将XLM-R-3模型作为词嵌入层,与不同的传统分类算法相结合。实验结果表明,XLM-R-3与支持向量机结合时准确率及AUC值最高。3.本文使用深度学习分类算法对特征进行进一步提取。文中以XLM-R-3模型作为输入层,分别结合卷积神经网络和循环神经网络及其变体。最终提出XLM-R-3-BGA模型。该模型使用XLM-R-3与双向GRU网络进行结合,以双向GRU作为主体网络,提取文本的上下文特征,最后使用注意力机制,将重点词语重点突出,从而进行评论分析。实验结果表明,本文提出的XLM-R-3-BGA模型的准确率和AUC值高于初始模型及其他结合模型。4.跨语言模型与单语言模型的分类效果对比。本文使用谷歌翻译将英文翻译为西班牙文与意大利文。之后使用跨语言模型分别与西班牙文,意大利文的BERT模型进行对比。实验结果表明,跨语言模型的准确率和AUC值高于单语言模型。
其他文献
面向由人车路多要素构成的现代交通系统,传统交通管理手段导致交通拥堵状况日益严重,车路协同技术成为当今智能交通领域的前沿技术和必然发展趋势。由于不同智能等级的异构车辆融入交通后形成了新型混合交通环境,传统的车路协同仿真与测试技术已无法解决混合交通流现象所带来新的交通问题,车路协同典型应用场景也无法完全覆盖混合交通的功能特征,对车路协同混合交通场景功能进行测试并建立场景测试案例有很重要的意义。然而交通
在强监督学习中,每个示例有着明确的标注信息,但是随着大数据时代的到来,标注示例所需的时间成本和金钱成本增加,弱监督学习越来越受到人们广泛关注。偏标记学习是一种弱监督的学习框架,这种学习框架在现实社会中有着广泛的应用,比如:自动标注系统,来自不同背景的人做了不同的标注,但是其中只有一个标记是真实标记;一篇新闻报道出现了多人的名字和一张合照,但是人和名字的匹配信息并不清楚。偏标记学习的目的是从有候选标
交通震荡是极为常见的一种交通流现象。在震荡交通流中,车辆不能保持平稳运行,需要不停地加减速,这会增加车辆的燃油消耗和尾气排放,并带来极大的安全风险。交通震荡幅度的不断增加还可能会导致车辆速度逐渐降低到零从而形成完全的堵塞。因此,弄清交通震荡产生和演化的机理具有重要的理论意义和应用价值。大部分的已有研究一方面关注于路段交通流中的交通震荡,揭示了驾驶行为(即车辆跟驰和换道行为)在交通震荡产生和演化过程
海运在物流体系中占据着主导地位,港口作为连接海陆货运的物流枢纽,承载着重要的作用。堆场在港口作业链中起到起承转合的作用,是港口装卸、存储、转运的重要设施,直接影响港口作业效率、作业成本,间接决定了港口的吞吐能力。当前堆场管理模式下,数据信息滞后、准确性差、共享程度低,资源配置不合理等问题严重限制了堆场的作业效率和吞吐能力,亟待成熟的技术手段实现堆场货物结存的动态监测。在港口企业自动化、智慧化、精细
混合动力汽车兼具了电动汽车和传统汽车的优点,其能够在制动过程中进行能量的回收,从而提高能量利用率,已成为近年来国内外的研究热点。本文以一款新型混合动力汽车为研究对象,并对其再生制动系统进行了一系列研究,重点研究了混合动力汽车制动过程中前、后轴制动力及前轴机电制动力的协调分配,并进一步考虑了车辆制动过程中挡位变化对电机发电效率的影响。本文的研究工作可为混合动力汽车再生制动技术的发展提供一定的理论依据
位置社交网络(Location-Based Social Network,LBSN)是指利用用户的签到信息,将线上社交网络和线下物理世界相结合,提供给用户一个融合虚拟世界和物理世界的全新平台,将虚拟世界信息在真实世界服务中分享与推荐。位置推荐系统通过挖掘用户习惯偏好、社交关系及位置地理信息,帮助用户发现感兴趣的位置,节省了时间与精力,还为位置提供商吸引更多用户群体。位置推荐系统广泛应用于各种app
微电子计算机、导弹卫星和军用雷达等精密设备蓬勃发展,设备体积微小型化,运行速度不断提升,导致器件功率密度大幅增加,对散热提出更大挑战。利用微通道进行两相流动沸腾换热,以汽化潜热的形式带走热量,具有换热系数高、均温性好以及工质需求量低等优点。本文利用高渗透率、高比表面积的铜粉烧结多孔材料制备了4种开放型的微通道热沉,对多孔材料微通道进行流动沸腾可视化及换热与压降的实验研究,并利用相变传热机理、多孔介
京沪高速铁路自建成运营以来,客流量快速增长,对京沪高铁列车运行图的编制质量提出了更高的要求。均衡性作为评价运行图编制质量的一个重要指标,它的好坏将对车站的工作组织、列车在区间的旅行速度和车站设备的利用等产生重要的影响。随着高速铁路对运输质量关注,列车运行图也需要在考虑客流波动特点的条件下,实现均衡性的编制。论文以京沪高速铁路为研究对象,在分析不同车站、不同时段客流变化规律的基础上,对列车停车和车站