【摘 要】
:
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文
【机 构】
:
天津大学管理学院; 清华大学计算机科学与技术博士后流动站; 深圳现代计算机有限公司博士后科研工作站 天津300072; 北京100084深圳现代计算机有限公司博士后科研工
【基金项目】
:
湖南省自然科学基金资助项目(03JJY3098);福建省青年科技人才创新项目(2005J051)
论文部分内容阅读
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板(多模板),并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。
其他文献
1不要空腹喝酒空腹时酒精被吸收得更快,且空腹喝酒对肠胃的伤害更大。最好的预防方法是在喝酒前先食用油质物质或牛奶。2饮酒前先补充维生素维生素A、维生素C和维生素E,它们
随着移动互联网时代的到来,传统电商和实体零售已不能满足消费者需求快速升级的需要,我国零售业在新技术应用等多种因素的叠加下,开始了新零售全新业态模式实践探索。本文从
天津排球拥有悠久的历史与良好的传统,天津女排十三年内十次问鼎中国女子排球联赛的冠军,取得了全运会三连冠的好成绩,天津女排已成为天津竞技体育响亮的名片,但是排球项目近
少数民族制度伦理均是本民族在日常公共生活中依据民族成员的利益需求而形成,具有族群内生性、以族群利益为制度伦理常规效及范围、以族群认同为制度伦理有效运行的根本保障
由于人工源电磁探测效果与收发距离有一定关系,本文首先分析了收发距离为零的中心回线源瞬变电磁法(Transient Electromagnetic Method,TEM)视电阻率定义和算法特点,回溯了从
本文对CRH2A型动车组在载客运营及检修作业中牵引系统的应用进行概述,首先介绍了工作原理及牵引变压器、牵引变流器、牵引电机关键部件,最后对CRH2A型动车组牵引系统牵引电机
分析了当前思想政治教育存在的现实困境:在发生学意义上的传统工具化倾向导致其远离了主体的精神诉求和学科的学术性质;逻辑上与此相联的思想政治教育的职业化倾向一定程度上导
以在校大学生为调查对象,针对廉洁文化教育的内容和效果进行了问卷调查,从而分析出湖南生物机电职业技术学院在进行相关教育活动过程中存在的问题,进而指出有效实施大学生廉