线性链条件随机场训练算法优化的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:kage
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由John Lafferty等人在2001年提出的条件随机域(conditional random fields,CRF)模型是机器学习领域的一个重要里程碑,它综合了以往机器学习中几种模型的优点,包括隐马尔可夫模型,最大熵隐马模型,同时也避免了MEMM中标记偏见的问题。因为它的这些优点,CRF被广泛应用于机器学习领域,特别是自然语言处理中,包括命名实体提取、词性标注等。在有着广泛的应用和众多的优点的同时,CRF也存在着不足之处。其中一个显著的不足就是训练一个CRF模型需要耗费大量的计算资源。首先,CRF的训练需要耗费大量的内存资源,在进行大数据量的训练的时候,所使用的内存常常会超出微机的物理内存,使得操作系统使用磁盘作为交换空间,大量的I/O操作会严重影响训练效率;其次,CRF训练的计算本身也需要耗费大量的计算时间,数据量大的训练通常需要耗费数天甚至数周才能完成。这不仅仅是因为算法本身的复杂度,还跟目前的算法没能有效利用现代计算机硬件特性有关。本研究的目的是,通过优化CRF的训练算法,使得算法可以有效利用现代CPU的特性,并使内存-磁盘间的数据交换操作得到优化,从而提高CRF模型的训练效率。同以往的CRF相关研究不同,本研究从一个计算机架构的角度研究了提高CRF训练效率的方法。就我们所知,目前通过优化算法来有效利用现代计算机特性来的研究也较多,但针对CRF算法的目前还尚未出现。由于CRF被广泛使用在机器学习领域,本研究可以让使用CRF的研究者和开发人员在测试、应用算法模型时节省大量的时间和精力。本文从以下三个方面解决CRF训练效率低下的问题:1.通过优化算法,降低CPU Cache失效率。设计一个适合Cache预取的算法,可以通过使用现代CPU的软件预取(software prefetching)指令,降低CPU Cache的失效率,从而减少cache失效带来的性能损失;2.通过优化算法,使得算法中计算的并行性得到提高。设计算法充分利用CPU特性,可以提高CRF训练时计算的并行性;3.设计基于外存的CRF训练算法。当内存使用很大时,可以让训练程序自主管理磁盘操作,避免让操作系统来管理,从而减少了大量的数据交换操作,大幅提高了效率。本文实验结果显示,改进的CRF训练算法确实有效提高了训练效率,特别是对于规模越大的任务,效果的提升就越明显。表明本文的算法确实适合大规模的训练任务。
其他文献
考试是教学过程中的重要环节,在信息化社会中,建立计算机管理系统来管理高校的考试题库成为各高校考试管理走向现代化、规范化、科学化的必然途径。为深化教学改革,提高教学
计算机自动伴奏是计算机自动作曲研究的一个分支,是计算机技术和音乐理论相互交融的产物。目前计算机自动伴奏研究虽然取得了一定的成果,但这些研究基本上是建立在西洋大小调
笔迹既包含着书写者先天的生理特征,又受后天学习的影响,能在一定程度上反映书写者的书写习惯和生物特征。从笔迹中提取的信息可以用来判断书写者的性别、年龄和使用右手或者
当前随着计算机和互联网技术的普及,人们已经进入了信息呈指数级爆炸式增长的信息时代,每个人在实际生活中每时每刻都在不断地与信息打交道:接收信息、加工信息和利用信息。
自微芯片之父Roland Moreno于1974年3月申请了智能卡的专利以来,智能卡现已广泛应用到医疗、交通、金融、电信、社保、石油等各个行业中。智能卡的出现与发展给人类的生活方
P2P技术的出现推动着整个Internet网络的计算模式由集中式向分布式发展,传统的内容分发模式演变成了P2P与CDN的混合模式。实现大规模和大容量的内容分发已经不再是难事。BitT
无线传感器网络(wireless sensor network,WSN)的主要功能是对监测区域的事件对象进行有效的监测。以数据为中心的网络更关注兴趣事件发生,而非某个节点的监测值。以数据为中
随着高校招生规模的不断扩大,招生后期的数据处理与迎新工作变得更加繁重,各高校普遍希望将信息技术引入到迎新工作中,加强参加迎新的各个部处间的信息流通和工作配合,使迎接新生
据统计,互联网上在线发布的网页早已达到亿数量级,并以每天百万页的速度在增长。用户在需要克服语言障碍的同时,如何准确地在Internet这样一个开放式的数据库中找到相关信息,
Reed-Solomon纠错码算法作为编解码领域中出色的算法被广泛应用于各个方面。尤其在数据恢复方面的应用较为突出。算法本身又构建于有限域的数学运算之上,从而凸现了有限域运