新词发现相关论文
针对现有舆情监测系统对于未登录词的钝化问题,构建了一个基于BERT模型(bidirectional encoder representation from transformers,......
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟......
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文......
文本数据的分词及单词向量化,是目前大多数中文自然语言处理任务的必要任务。词汇是最小的能够独立运用的语义单位,能够表达基础的......
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对......
随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作......
新词指的是在词典中不曾存在,但现在被人们广泛使用的词语。随着互联网的飞速发展,大量新词也随之涌现。这些新词的出现给诸多自然......
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前......
名实体及新词是能够准确反映文本内容的基本信息元素,是正确理解文本的基础。名实体识别及新词发现技术广泛应用于诸多自然语言处......
中文分词是中文自然语言处理的基础性任务,分词的准确性直接影响到后续处理任务,分词的速度影响到后续的直接应用。成功的分词方法......
数字智能网络时代下大量文化数字化资源被汇聚,急需新手段新方法对文化资源进行有效合理的组织与管理。目前文化领域已经积累了大......
随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文......
随着移动互联网时代的到来,微博等社交媒体平台异军突起,其连接的用户数以及用户产生的数据呈现出爆发式增长,由此而促成了社交媒......
随着社交媒体网站的发展,微博成了用户自由表达观点和情感的聚集地。如何从海量微博中分析用户情感成为一项十分有意义的研究工作......
随着近些年来网络上Web服务数量的爆发增长,如何从海量的服务里匹配到最佳的服务从而达到Web服务复用和Web服务组合的目的,成为了......
在互联网技术和移动应用飞速发展的环境下,网络文本的信息量正与日俱增。微博作为一种开放式的互联网社交平台,由于其使用便捷、用......
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对......

