论文部分内容阅读
地名词典(Gazetteer)是一个具有地理意义的字典或名录,主要描述地名的名称、要素类型、空间位置等重要参考信息,通常包含一个国家、地区或大陆的地理构成,以及社会统计和物理特征,如山脉,水系或道路,在网络电子地图服务、移动位置服务、地理信息检索、自然语言处理等方面有广泛应用。我国历史悠久、民族众多,地名既是社会文化的化石,也是时空的缩影。现有的地名词典管理和维护模式在时空关联以及地名空间关系表达方面较为薄弱。
本文在在地名时空数据模型的基础上,从被动式、大众参与式与主动式维护三种视角,综合运用XML、Web服务、网络爬虫、网页解析和地名识别等技术,探讨中文地名词典的多种维护方法。主要内容与成果包括以下几个方面:
(1)基于XML Schema的多源地名数据集成方法研究:以XML和XMLSchema为基础,通过XSLT映射机制实现了多源异构的批量地名数据集成。该方法是基于数据结构的被动式维护方法,没有考虑地名属性的语义集成问题。但是,实验证明这种方法具有跨平台性、可扩展性高,而且为地名Mashup提供了技术基础。
(2)基于网络爬虫的中文地名词典维护方法研究:利用网络爬虫技术主动获取海量空间敏感的网页文本并进行DOM结构化解析,整合CRY地名识别模型、规则匹配和Geocode(地址编码)技术实现地名词典地名、要素类型和空间位置的获取,有效解决了地名获取难、维护效率低的问题。
(3)基于Neogeography的中文地名词典维护方法研究:利用Web服务和Mashup技术,在国家安全保密规范允许的情况下,实现大众参与的地名词典维护方法。通过提供地名数据的查看、上传、地址编码等服务,Mashup其他地名数据资源,建立了地名服务评估机制,实现了VGI模式的地名词典维护。
(4)中文地名词典维护原型系统设计:在上述三种方法研究的基础上,设计了空间驱动的地名空间定位信息和属性信息的图文一体化管理模式,开发了中文地名词典维护原型系统,实现了大众参与式和主动式地名词典自动维护。