【摘 要】
:
随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增长,如何从海量的数据中精准的抽取用户所需信息已成为人们关注的话题。信息抽取的主要目的是将非结构化的
论文部分内容阅读
随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增长,如何从海量的数据中精准的抽取用户所需信息已成为人们关注的话题。信息抽取的主要目的是将非结构化的自然语言文本转化成半结构化或者结构化数据,便于人们能够准确快速的获取信息。命名实体识别作为信息抽取的子任务,已经成为人们研究的热点,其中专业领域命名实体识别又是其中的难点。针对汽车领域的命名实体,展开了如下研究工作:(1)提出一种基于叙词表的汽车领域本体构建方法。针对现有汽车领域叙词表老旧、不全面的特点,构建了一个基于互联网词汇的汽车领域叙词表,提出一种基于叙词表的汽车领域本体构建方法,并把构建好的本体作为特征进行汽车领域命名实体识别。实验表明,汽车领域本体可以作为特征运用到命名实体识别中。(2)提出一种基于本体特征的汽车领域命名实体识别方法。选择COAE历届会议提供的汽车类评价短语为实验语料,深入分析语料中汽车命名实体的特点,选择词、词性、指示词、情感倾向和领域本体为特征,利用条件随机场模型对语料中的品牌名、系列名和属性实体进行识别。对比实验表明,本体特征可以大幅提高汽车命名实体的识别率。(3)提出一种隐含汽车实体的识别方法。针对由未登录词组成的隐含汽车实体,通过分析语料中词的依存关系,制定了一个隐含实体的提取规则,基于该规则对隐含实体进行识别。实验表明,该方法可以有效的识别出隐含实体,进一步提高了汽车领域命名实体识别的准确率。
其他文献
<正>1海南制种基地的优越性海南具有全国独一无二的热带气候资源,全省规划优势农作物育制种基地12 667hm2,为各类作物优良新品种的研发提供了优越条件,已成为国内农作物品种
交换机与路由器是网络搭建中的必要设备,二者之间的功能大致相同,但接入方式中存在着很大差别。随着社会的发展,计算机网络已经普及到每个家庭,甚至很多家庭都拥有2台以上的电脑,为了实现电脑的共同上网,路由器和交换机也渐渐地被许多家庭所使用,但是由于家用路由器和交换机的外观大致相同,很多人都不知道路由器和交换机的各种区别以及使用。
近年来,很多学者对基尼系数的经验法则尤其是警戒线提出了质疑。本文首先分析了收入分配的合意类型,然后依据相对贫困、贫富差距及中等收入者的收入份额三个指标来界定合意的收
滑坡抗剪强度参数的选取是准确分析和评价边坡稳定性及进行滑坡防治工程设计的关键。传统的抗剪强度参数反演方法无法综合考虑岩土工程中大量不确定因素的影响,难以适应工程
车险费率改革,一直是一个欲说还休的话题。因为车险的准公共产品性质,其费率改革与千家万户、相关行业、政府民生牵扯甚多,引致批评非议众多,又因为改革路径见解不一,可操作
目的:探讨NT在1113+6周胎儿的临床检查中的应用情况。方法:以回顾分析方法对我院进行常规产检的1113+6周胎儿的NT检查,并根据临床检查资料分析胎儿的颈项透明层厚度情况。结
我国经济由高速发展阶段迈入高质量发展阶段,迫切需要深化改革提供支撑。本文结合高质量发展的内涵和实现路径,深入剖析税收对高质量发展的作用机理和职能定位,认为税收与高
公民有效的政治参与有利于民主政治的发展和社会稳定,但非制度化政治参与却往往带来负面影响。当前,非制度化政治参与成为我国社会转型时期公民政治参与的一个明显特征。分析