【摘 要】
:
中文文本拼写纠错在自然语言处理领域中是一项重要且具有挑战性的任务,存在诸如没有明显的词语定界符,拼写错误类型众多以及缺乏公开优质的中文拼写纠错语料库等问题。针对以上问题,设计并制作在线智能文本校对系统。中文文本拼写纠错任务的关键在于对上下文语义环境的理解,传统的基于BERT的序列标注方案在当前任务上取得了不错的成绩,但该方案受限于BERT预训练任务仅从15%的token中学习的影响,对于模棱两可的
论文部分内容阅读
中文文本拼写纠错在自然语言处理领域中是一项重要且具有挑战性的任务,存在诸如没有明显的词语定界符,拼写错误类型众多以及缺乏公开优质的中文拼写纠错语料库等问题。针对以上问题,设计并制作在线智能文本校对系统。中文文本拼写纠错任务的关键在于对上下文语义环境的理解,传统的基于BERT的序列标注方案在当前任务上取得了不错的成绩,但该方案受限于BERT预训练任务仅从15%的token中学习的影响,对于模棱两可的拼写错误往往选择不纠错。针对该方案的缺陷,在线智能文本校对系统使用一种新型的两段式神经网络结构,该神经网络由检错网络和纠错网络组成。检错网络在字级别上从所有token中识别不同类型的拼写错误,纠错网络则对识别得到的拼写错误进行纠正。同时,基于字级别的检错能够很好地解决无明显词语定界符和拼写错误类型众多这两个问题。其次,针对缺乏中文拼写纠错语料库问题,在线智能文本校对系统采用了词频分布采样改错技术和EDA数据增强技术来构造带有拼写错误的语料。其中,词频分布采样改错技术基于词频分布从正确的语料中进行采样,并对采样得到的字进行改错,而EDA数据增强技术则对带有拼写错误的语料进行同义替换。这两种技术都能够构造大量带有拼写错误的语料。并且,系统的数据收集机制也会在使用过程中不断积累真实场景下的拼写错误语料,从而解决缺少中文拼写纠错语料库的问题。此外,考虑到系统的实时性要求和算力资源的限制,对系统中的神经网络使用了模型蒸馏技术,以减少神经网络的参数量和内存占用,并提高训练效率和推断速度。利用web技术开发在线智能文本校对系统,并且对系统的拼写纠错功能中使用的算法进行了比较。对比基于BERT的拼写纠错方案,论文提出的两段式神经网络在SIGHAN和维基百科中文拼写纠错测试集上的纠错率分别提高了0.7和1.7个百分点,并且检错率达到了81.2%,能切实地为文字工作者提供拼写纠错服务。此外,系统使用过程中累积的中文拼写纠错数据也将对外开放,希望能对中文拼写纠错领域贡献一份力。
其他文献
药物煎煮时间与煎煮方法对于药效的发挥至关重要。通过查阅比较《伤寒论》和《金匮要略》同方的不同煎煮方法发现:《金匮要略》中葛根汤的煎煮时间较《伤寒论》中更短,如此处理能使药性更加峻猛,迅速祛除邪气;《伤寒论》中茵陈蒿汤煎煮时间较《金匮要略》中更长,如此处理能缓和药性,防止药物损伤津液;《金匮要略》中吴茱萸汤煎煮时间较《伤寒论》中更短,药物轻煎可使药性轻清偏上,振奋胸阳;《伤寒论》中大黄黄连泻心汤采用
实时准确的状态监测对车载动力电池至关重要,它依赖于大量传感器采集的信息数据。在长期使用中,高频振动和连接器松动使局部传感器失效,导致数据采集异常。由于针对数据缺失和更新停滞异常的相关研究较少,本文提出了一种基于双向长短期记忆网络和最小二乘支持向量回归的异常数据监测与校正方法。建模和参数辨识分别采用戴维宁模型和数据驱动方法。同时输入和状态估计算法用于电池状态估计。实验中,该方法在6种混合异常测试条件
简介及应用场景|简介随着装备的复杂性提高和维修保障需求的增长,装备保障决策分析、保障效能评估、保障流程优化等内容已经成为提高装备保障能力的研究重点。保障效能仿真系统采用离散事件仿真方法,模拟装备在各类任务中使用、装备和部件的维修、备件供应等活动,通过对使用与维修保障活动进行长时间多次模拟执行,实现装备系统保障效能评估,以及通用质量特性设计方案以及保障方案的分析评估与权衡优化。
企业管理者和债权人存在信息不对称性,对于债权人而言,通过稳健的会计政策有利于降低信息获取成本,从而有效制约管理者,规避企业管理者的道德风险,在企业利益相关方之间形成平衡关系。根据委托代理理论的观点,如果债权人可以掌握更多充足的财务信息,则有利于提升资金的安全性。通过实施会计稳健性政策,有利于提升上市企业信息披露的透明度,进而对债务契约中成本约定产生积极影响。而高管学术经历可以提升公司平稳经营的能力
量化投资在欧美已有40余年的发展历史,海外知名的私募基金公司文艺复兴科技公司的核心产品——大奖章基金自1989年成立起,30年来年化平均回报高达35%,远超巴菲特等知名主动管理基金的业绩。由于大奖章基金优异的业绩,吸引了大量的机构及个人投资者开始参与研究和开发量化投资策略。量化投资策略主要分为两大类型:基本面量化投资策略和市场行为量化策略。其本质都是通过对宏观、行业、公司财务等基本面数据,或者机构
针对航空发动机的振动监测与分析问题,本文选取磁电式振动速度传感器作为测振传感器,将其布置在机匣的安装边上,通过采集机匣在径向、轴向和周向的振动信号来反映发动机的振动状态。为了验证所选测振传感器的综合性能,基于测振传感器的速度灵敏度以及绝对测试法,应用便携式振动校验台对传感器的输出稳定性、频率响应特性和幅值线性度等性能进行了实验验证。实验结果表明,所选用的振动速度传感器的各项性能能够满足使用要求,可
宪法言论自由是否应解释为发表各种言论的自由?是否有必要由宪法调整私人言论?实践中对于宪法“言论”概念存在不少误读。解释言论自由的规范内涵,有必要区分宪法权利的调整范围与保障强度,发挥调整范围的“过滤网”功能,避免在言论限制问题上产生不必要的分歧。宪法权利是凌驾于集体决策之上的“王牌”,权利条款划定了公权力行使的边界。“公民有言论的自由”并不是指个体有想说什么就说什么的自由,其核心要义是防备国家对公
抚州采茶戏作为本地传统戏种,历史文化悠久,是国家级非物质文化遗产代表性保护项目。它是在汤显祖的戏曲艺术影响下,形成和发展起来的独具特色的艺术形式。习近平同志在全国宣传思想工作会议上指出,要“讲清楚中华优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力。”[1]而继承和发展抚州戏剧文化就是彰显抚州文化软实力的最有效方式之一。戏剧本身与美术有着很强的关联性,把抚州采茶戏视觉审美元素引入到美术课
俄语作为联合国的官方交际语言之一,具有自身的起源、发展和演变过程,主要表现在:每个时期俄语中都会出现大量的其他语言的外来词,这些词汇的出现总是与当时的社会环境紧密相联,本文通过对俄语外来词借入的原因、方式的分析,对俄语外来词现象作了语言学阐述,同时对外来词借用现象的利与弊提出自己的看法。
为了解国内军事装备保障效能,通过Cite space文献分析软件,对中国知网2749条文献数据进行可视化分析,包括历年发表总量、学科分布、关键词共现、关键词时序图、作者及机构合作关系、文献共引分析等。研究结果显示,装备保障效能形成的“S型”逻辑曲线符合文献指数增长规律;效能评估在军事装备保障中已经成为研究的重点领域;从2020年首现的关键词“智能”“感知”“决策”“执行”是装备保障研究趋势。最后,