论文部分内容阅读
实际工作中,由于数据来源多样、结构不一,入库前需要进行删除、合并、补充等数据清理工作。针对实例层,利用数据的地理信息特征,清洗多源数据。具体过程包括剔除明显错误数据;基于空间条件重构唯一名称字段标识,以唯一名称删除重复点、匹配挂接两个数据,提取要素地理坐标信息;利用正则表达式、线索词抽取信息。结果表明,该方案能够将多个政府部门的文本信息融合到地理信息数据属性表中,使数据达到入库标准。