中文分词与词性标注的一体化学习及领域适应性技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:coldbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理的研究已经成为热点,而分词与词性标注两个任务作为自然语言研究领域的一个重要分支,同样为大家所关注。分词与词性标注的是自然语言处理的预处理部分,占有重要地位。对于这项工作国内外一般都采取先分词后词性标注的战略,这样做有两个不足:一是可能将分词的错误蔓延到词性标注的阶段中去,造成错误的叠加;二是词性信息在一定程度上能够解决分词中产生的歧义问题。本文的工作正是从这两点出发,将分词与词性标注联合学习,借助词性信息使分词结果更加准确。传统的统计学方法一般都假设训练语料库和测试语料库来自相同的领域,但是实际上并非如此,训练集和测试集往往来自不同的领域,这往往导致标注性能的明显下降。针对目前大多数领域的标注语料明显缺乏的情况,本文期望通过已有的标注语料训练学习到的模型,能够很好地适应另一个未标注语料的领域,即领域适应性问题,这是本文研究的另一个重点。本文的主要贡献在于:(1)针对当前序列化的学习方法的特点与不足,提出了分词与词性标注一体化的学习模型。该模型相比于分词与词性标注单独处理显示出了一定程度上的优越性。(2)对词性标注系统的评测方法做出了一些改进,一定程度上解决了分词结果不同所造成的问题,可以对标注性能提供一个比较全面的评价。(3)针对文本标注语料的领域覆盖度不足的问题,实验比较了领域适应性问题的解决方法。对于多个源领域的领域适应性问题的探索上,设计并实现了选择性投票算法,该算法能够有效利用现有的数据资源,使标注性能大大提高。
其他文献
观察点设置问题是地形可视性分析中的一类重要问题,对该问题的研究可以在空间信息辅助决策、通信、旅游、野生动物保护等领域发挥重大作用。本文在对地形可视性分析中观察点设
随着Internet技术的普及和发展,图像图形技术作为Web浏览技术的基础,发挥着至关重要的作用。然而,从目前的Internet及浏览器的核心技术来看,对于图形图像的支持还仅仅局限于对图
无线传感器网络是近年来信息技术领域的一个研究热点,它集成了无线通信、感知、嵌入式计算、网格计算等技术,是一种典型的无基础设施通信网络。无线传感器网络这门新兴的技术可
多媒体的不断普及,它已经成为了我们获取信息的一个重要手段。与此同时,视频安全播出的形势也愈发严峻。数字视频的播出环节比模拟视频复杂得多,播出中常产生的多种异态,而节
移动终端的普及和网络性能的提升使视频的实时交互式传播成为可能,作为其中的典型代表,近年来出现的个人直播平台已达数十家,用户在此类平台上不仅可以作为看播端观看视频,也
随着流程工厂设计领域中信息技术的应用从单纯的CAD技术在各设计专业中的应用阶段发展到以网络技术、数据库技术、人工智能技术、现代管理技术等为基础的综合业务流程管理系
大型公共环境人员疏散路径规划研究对指导安全设施建设、应急预案的制定、实施和摊演都有重要意义。近年来进化计算领域兴起的分布估计算法为路径规划问题的解决提供了新的优
在过去的几十年里,传统的关系数据库管理系统在商业数据管理中发挥了非常重要的作用。但是,近年来随着计算机应用技术,特别是Web信息技术的不断发展,当今的数据呈现出了两大
在互联网上,大部分服务器郡是因为服务器的配置不当或女装小正确而被攻击,只要修补已知的安全漏洞,就可以抵抗绝大部分的黑客入侵。但是目前很多企业购买的网络安全产品都采
随着日前日益发展的计算机技术和网络技术,信息安全已经成为人们日益关注的热点领域。作为其重要组成部分的信息隐藏检测也进入一个高速发展时期,而对信息隐藏检测的评估也成为