【摘 要】
:
信息抽取是一种从非结构化文本中抽取出结构化信息的自然语言处理技术。它包括命名实体识别,关系抽取,实体属性抽取等,其中命名实体识别是信息抽取的基础。命名实体识别是指
论文部分内容阅读
信息抽取是一种从非结构化文本中抽取出结构化信息的自然语言处理技术。它包括命名实体识别,关系抽取,实体属性抽取等,其中命名实体识别是信息抽取的基础。命名实体识别是指通过机器识别出文本中具有特定意义名词的技术,识别的名词有人名,地名,组织机构名等。本文研究林业病虫害实体的识别,所做的工作及成果如下:首先,从林业病虫害防治相关网站中抓取网页并预处理,再通过手工标注,得到一个包含有林业病虫害实体的语料库。其次,考虑到人工标注需要耗费大量的人力,为了使得模型具有更快的收敛速度和更强的泛化能力,节约人工标注成本,本文提出了一种基于初始聚类的实体识别方法。零初始训练集情况下,以条件随机场为模型,首先将未标注样本聚类,然后按聚类的比例选取相应数量的样本,再利用主动学习和半监督学习相结合的方法,不断更新训练集。这种方法将样本在数据集中的分布情况考虑进去,克服数据分布随机性带来的影响。再次,针对本文所用的统计模型及语料的特点,在主动学习方法环节,提出了一种N-best和RNN(Reverse Nearest Neighbors)相结合的查询策略。最后通过实验,验证了这种查询策略的可行性以及基于聚类方法的有效性。
其他文献
该文通过分析RUP作为一个通用软件过程的实质以及WebMIS技术方面的关键特色和系统开发方面的关键特色,解决了RUP应用于WebMIS开发的几个关键性问题,如初始阶段和细化阶段WebM
该论文第一部分是关于辽宁移动互联网建设的可行性分析,主要从辽宁移动企业业务拓展需要、用户业务需求、现有网络技术体制转变等方面进行了论述,然后从工程建设的可行性方面
首先,该文探讨了GIS的基本概念,分析并总结了GIS的几个主要发展方向,指出ComGIS是当前GIS研究的一个热点,是GIS发展的趋势之一.接着,该文介绍了组件和ComGIS的基本概念.从起
电子商务的发展,对Web Services提出了新的需求:如何有效的实现WebSerVices的集成型定制.具体来说,集成型的Web Services需要解决如下课题:WebServices的自动发现、自动执行
该文主要剖析了嵌入式实时内核UC/OS-II,开发了仿真智能UPS系统.该文共分四章,第一章着重介绍了嵌入式系统的基本概念及其开发方法论;第二章剖析了嵌入式实时内核UC/OS-II,总
该文实现了一个硬软一体件化的RSFW防火墙.2.实现了RSFW的入侵检测系统--Guarder.3.设计并实现了RSFW防火墙的远程配置系统.4.定制了RSFW防火墙运行的Linux操作系统--MiniLin
计算机技术的飞速发展把人们带入了信息社会,并且致使信息的拥有量及其增长速度极为惊人.如何从巨量的信息中提取人们感兴趣的知识成为亟待解决的问题.由此数据挖掘就成为数
随着计算机技术的迅速发展,嵌入式系统已成为计算机领域的一个重要组成部分.是当今中国的IT领域中最热门的话题之一.因此,挑选一个好的、满足特定需求的、有良好可伸缩性的操
该文首先回顾了网络信息检索系统的基本结构和关键技术,将基于客户机/服务器模式的检索方法和基于移动代理的检索方法进行了对比,阐述了移动代理技术在网络信息检索中的优越