使用无监督学习改进中文分词

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:mqj0712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升.
其他文献
数据中心网络中单组播树传输往往难以应付网络拥塞和故障,从而导致可靠性和网络资源利用率较低.多组播树动态切换机制虽然能够灵活地对数据传输进行均衡和故障恢复,但在传统
在可充电传感器网络中,通常采用移动式无线充电车定期在网络中游走为节点补充能量,以保证网络的持久运作.但是,移动充电车如何在延迟限定的情况下为尽可能多的节点补充能量是
OAuth(Open standard for Authorization)是一种基于Web的用于开放授权的互联网标准协议,在众多基于Web的应用平台中得到广泛应用,但是该机制应用在WoT架构下时面临许多挑战.
针对汉语简单名词短语提出一种混合的识别模型,该模型包括组合分类器方法和一种并列结构识别算法.分析简单名词短语与其他类型名词短语的异同,进一步确定其识别任务;利用词、
利用CFD模拟技术对寺河矿XV1301综采工作面采空区瓦斯分布进行数值模拟,并结合该矿瓦斯抽采实际情况进行分析。研究表明:工作面采用并列双U形通风采空区高浓度瓦斯区域为沿工
【摘要】当前初中英语课程改革进入到一个新的阶段,在日常的工作中,我结合新的《英语课程标准》,在框架结构、课程目标、教学内容、教学实施等方面进行了新的尝试并有了些教育心得。  【关键词】初中英语 课改 心得    《英语课程标准》在教学内容上不过分追求学科体系的完整性,注重精选基础性强、适应时代发展、贴近学生生活的教学内容。不仅强调学习外语的基础知识和技能,而且确立了文化素养、情感态度和学习策略的地
由于TSV通道具有高硬件代价和低可靠性的缺点,限制TSV通道数量的非全互连3D NoC得到广泛研究.在非全互连3D NoC中,路由器需要维护TSV表以助数据包在层间传输时找到可用的TSV
干部人事档案是全面考察与评价干部的重要依据,能够实现信息化管理模式改革,有效提高干部人事管理效率.干部人事档案信息数字化实现了信息查阅与共享,有效避免了纸质人事档案
SIP协议作为多媒体应用中的主要文本通信协议,其传统的传输机制已经难以适应移动互联网低带宽,不稳定的网络环境.针对上述问题,研究和设计了一种面向移动互联网的SIP节流传输
随着被标识对象的位置移动,RFID网络中不断产生新的观测数据.如何跨越多个不同信息服务器,进行有效的数据追溯查询,始终是RFID网络的重点研究内容之一.现有的追溯服务研究,没有充分考虑由于被标识物理对象之间的组合或者拆分等行为所造成的RFID数据关联,导致查询结果不完整.通过改进目录服务模型,提出一种具有关联性感知的RFID网络追溯服务.在发现服务阶段加入递归的关联性分析后,可同时返回原始标识以及