多阶段混合属性的景点实体解析研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:hackxingxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是一个非常传统的研究方向,近年来又逐渐成为研究热点,基于领域的实体解析正是其热点之一。与通用实体解析不同的是,基于领域的实体解析需要全面地分析和捕获领域数据的特征,并充分地加以利用。通用实体解析方法通常是在单一阶段内一次性匹配特征数据来完成实体解析,这一方面会造成不同特征数据的相互干扰,另一方面也不利于有针对性地利用不同的特征数据,从而影响实体解析的精确度。因此,本文在旅游信息领域背景下,在对领域无关和基于领域实体解析文献综述的基础上,提出了一种基于多阶段混合属性的景点实体解析方法。本方法在不同旅游数据源中,在景点的不同属性中充分提取景点的特征信息,通过多个阶段设计相应算法多次利用相关特征信息,最终实现景点实体解析。其中,景点的不同属性包括景点名、景点所在地,以及景点简介等。实体解析分为两个阶段,第一阶段是利用景点简介中的名词信息,对不同旅游网站中的景点进行聚类;第二阶段是在聚类结果基础上,利用景点名和景点简介中的人名地名相似度信息,进行桶装算法实现实体解析。本论文创新点如下:(1).解决了基于旅游景点实体解析的问题;(2).提出了基于多阶段混合属性的景点完全实体消解框架,在不同阶段有针对性地利用实体属性的有效信息;(3).提出了一种景点名景点简介混合的景点相似度度量方法;(4).提出了一种基于最远初始中心点和轮廓系数评价函数的k-means聚类优化算法;(5).改造了一种桶装解析算法;(6).在真实旅游景点数据集上进行了大量对比实验。
其他文献
最近,我们访问了一位曾经参加过新闻工作的同志,他就有关报纸工作的一些问题谈了些意见。报纸要以最广大的读者为对象这位同志说:作为读者,首先我反对报纸的分工。现在报纸
2012年,莫言站到诺贝尔文学奖颁奖台上.莫言发表演说时的穿着引发国内一些人的猜测和议论:是穿中山装好呢,还是穿西服好呢,还是穿燕尾服贴切呢?最终,人们看到的是一个穿燕尾
本文主要研究基于循环经济理论我国电子废弃物回收产业链的再造问题。文章通过对我国电子废弃物发展态势的分析及对回收利用产业化现状与问题的研究,提出再造我国电子废弃物回
构建医疗机构分工协作机制是加快推进我国分级诊疗制度建设、提升医疗卫生资源利用效率和促进基本医疗卫生服务公平、可及的重要举措,也是党和国家深化医药卫生体制改革、保障
冯至的《十四行集》,镶嵌在20世纪中国新诗史上,凝聚着新诗初建的焦虑与喜悦,也预示着新诗成熟后的尴尬与困境.rn“诗象一面风旗,把住一些把不住的事体”[1].风,是诗意,旗即
Under low temperature stress,theplasmamembrane and chloroplast of plant cellsare impaired,resulting in electrolyte leakage and al-teration of chlorophyll fluor
电泳技术鉴定种子纯度,是目前世界上较先进的检测手段。在我国,各地种子单位也都在逐步使用电泳技术来代替常规大田试种检验杂交种纯度。那么,电泳技术何以被称为伪劣种子的
正如许多诗人和学者所定位的,冯至《十四行集》是四十年代初中国现代主义诗歌的巅峰之作,新诗史上的超级文本.近来重读十四行,产生了一些新的想法.现不揣鄙陋,把零散的意见呈
赵卫峰:阿毛,你的本名叫毛菊珍?我还不知你的本名是这个名字,真像茶叶饮品的名字呵!你的笔名“阿毛”是如何来的?rn阿毛:茶叶饮品?我第一次听见有人这么评价我的本名.“阿毛
随着近年来机器学习和人工智能算法的快速发展,一些新的预测技术被运用到经济管理的实际研究中。支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,是