【摘 要】
:
在中文信息的自动化处理过程中,分词是一个关键步骤。而工程中常用的基于字符串匹配的分词技术,十分依赖分词词典的完备性和准确度。在互联网时代,不断有新词被创造、被使用,
论文部分内容阅读
在中文信息的自动化处理过程中,分词是一个关键步骤。而工程中常用的基于字符串匹配的分词技术,十分依赖分词词典的完备性和准确度。在互联网时代,不断有新词被创造、被使用,也不断有过时的词语被淘汰、被弃用,传统的基于人工标注的词语维护方式,越来越不能适应互联网时代高速迭代的词语维护需求。更加自动化、更加可计算的词语发现方式,对中文信息处理越来越重要。本文提出一种基于词激活力模型的词语发现方法,希望探索从文本大数据的统计信息中发现词语构成规律的方法。词激活力模型是一个统计模型,对文本中广泛存在的激活效应进行二维信息建模,对文本中字、词、实体之间的关系有很好的分析效果。本文假设文本是单字之间通过激活关系构成的序列,并以此为基础建立词激活力模型,进而对单字组词的规律进行探索。文中先对现有的词语发现研究情况作了简要介绍;然后对词激活力模型进行了比较详细的说明;之后对词激活力模型的算法流程进行了设计实现,分析和设计了该模型的大数据处理方案;随后对中文语料集进行了词语发现规律探索实验,总结了词语构成的统计规律;最后对全文做了总结,并提出对未来工作的展望。
其他文献
随着无线通信和卫星通信技术在数量和种类方面不断地增加,实时的监测无线信号变得越来越重要。而在现代通信系统中,对于信号的谱估计是通信系统中一个必不可少的单元,在对随机信
目的:探析呼吸对胸部CT影像的影响,为临床实践提供参考.方法:将2018年8月-2019年8月在我院接受治疗的40例患者作为本次主要研究对象,并随机将其分为对照组和观察组,对照组20
目的:分析加速康复理念在耳鼻喉头颈外科患者身上的应用效果.方法:选取2017年1月到2018年1月期间在我院接受治疗的耳鼻喉头颈外科患者80例作为研究对象,随机分为观察组和对照
目的:探讨重症监护室气管插管患者肺部感染症状的发生原因.方法:本次研究以我院接受治疗的110重症监护室气管插管患者为主,收治时间为2018年6月-2019年4月,对患者肺部感染的
本文选取了2002年1月到2008年底的Brent原油、上海期货交易所燃料油价格和中国沪深300指数的周数据,采用了向量自回归模型(VAR)的实证研究方法,分析了国内外石油价格与中国股
目的:探讨个体化健康教育对小儿哮喘治疗依从性和哮喘控制的影响,为临床小儿哮喘的有效控制提供参考依据.方法:按照完全随机对照原则,选取我院儿科在2017年1月—2018年1月期
目的:对舒芬太尼应用于静脉术后镇痛及临床麻醉的效果进行研究分析.方法:研究对象选取自2018年2月-2019年8月我院所接受的需要进行麻醉手术治疗患者80例,按照手术的前后安排
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)是一种多载波数字通信调制技术,它的诸多优点使之成为移动通信领域的核心技术之一。无线通信系统利用电磁波在
目的:探究对脑肿瘤手术前后实施磁共振扩散张量成像技术的临床应用价值.方法:将我院2018年8月-2019年8月收治的脑肿瘤患者作为本次主要研究对象,共计30例,对所有的患者在其手
目的:分析对放疗后肿瘤患者心理和睡眠障碍的护理措施及应用效果.方法:本次实验中,共有30例接受放疗治疗的肿瘤患者,按照数字随机法将其分为采用不同护理方式的研究组和参照