首页 | 本学科首页   官方微博 | 高级检索  
     

基于地理信息的数据清洗探讨与实践
引用本文:徐卓,王宁娜,穆琳.基于地理信息的数据清洗探讨与实践[J].信息工程大学学报,2021,22(3):321-325.
作者姓名:徐卓  王宁娜  穆琳
作者单位:武警广西总队参谋部,广西 南宁 530031;广西大学,广西 南宁 530029
基金项目:国家社会科学基金青年项目(19CXW028)
摘    要:实际工作中,由于数据来源多样、结构不一,入库前霱要进行删除、合并、补充等数据清理工作。针对实例层,利用数据的地理信息特征,清洗多源数据。具体过程包括剔除明显错误数据;基于空间条件重构唯一名称字段标识,以唯一名称删除重复点、匹配挂接两个数据,提取要素地理坐标信息;利用正则表达式、线索词抽取信息。结果表明,该方案能够将多个政府部门的文本信息融合到地理信息数据属性表中,使数据达到入库标准。

关 键 词:数据清洗  地理信息  正则表达式
收稿时间:2020/12/13 0:00:00
修稿时间:2021/4/1 0:00:00

Data Cleaning Based on Geographic Information
XU Zhuo,WANG Ningn,MU Lin.Data Cleaning Based on Geographic Information[J].Journal of Information Engineering University,2021,22(3):321-325.
Authors:XU Zhuo  WANG Ningn  MU Lin
Abstract:In practical work, data cleaning such as deletion, merging and substitution must be donebefore loaded into database due to the diversity of data sources and different structures. Withstance layer in view, this paper proposes a data cleaning process for multi-resource data based on ge-ographic information. The process includes deleting obvious erroneous data, reconstructing ID for allpoints based on their geospatial information and deleting the duplicate points. Then the two data arematched and linked by id to gain geographic coordinates, and information is extracted by regular exression and clue words. The results show that the scheme can integrate the text information of mul-tiple government departments into the attribute table of geographic information data, reaching the standard of database.
Keywords:
点击此处可从《信息工程大学学报》浏览原始摘要信息
点击此处可从《信息工程大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号