行业新闻

【数据分享】人口密度地理空间数据的处理方法

地理空间数据指资源、环境、人口、经济社会等领域中带有地理坐标的数据,是地理实体的空间特征和属性特征的数字描述。一般可分为矢量数据与栅格数据。

类似于矢量图与位图的区别:矢量数据结构是通过记录坐标的方式,表示点、线、面等地理实体,自然地理实体的位置是用其在坐标参考系中的空间位置来定义的,坐标空间设为连续,其特点是定位明显,属性隐含;栅格数据是将信息储存于若干个栅格中,即自然地理实体的位置和形状用它们所占据的栅格行列号来定义,栅格数据模型对地图数据的类型和属性可以用每个栅格的属性值表示,其最明显的特点是属性明显,定位隐含。通常来说,矢量数据因其较高的数学精度、较好的可量测性、较全的属性与注释信息,使得其敏感度较高。而栅格数据因其形象逼真的特点,也有一定的敏感度。由于高精度的高程数据不易获取,其敏感程度也很高。[1]

本文中使用的人口密度分布数据为TIFF格式(Tag Image File Format,文件后缀为.tif)。TIFF图像属于栅格数据,其存放信息的方式灵活,可记录图像上点的坐标系、比例尺、经纬度、长度、角度、属性值等。

从Worldpop网站[2]可获得世界大多数国家和地区2000-2020年每1km*1km区域的人口数量空间开源数据,以下为数据说明:

数据格式:TIFF文件及ASCII XYZ格式

空间粒度:1km*1km栅格;

时间跨度:2000年-2020年;

坐标系:地理坐标系,WGS84;

来源方法:基于以及行政单位官方人口统计以及建筑轮廓、地形地貌等卫星遥感数据,采用随机森林法(无约束自上而下)估算各个栅格中的人口数据。

严正声明:仅出于学习和研究目的使用数据,数据提供方的任何政治立场与本人无关。

数据链接放在文章末尾,可直接从官网下载,速度较慢的话可私戳我获取网盘链接。

(1)ArcGIS平台

可利用ArcGIS平台对TIFF文件进行查看以及预处理。在ArcGIS平台中添加TIFF文件,设置坐标系为D_WGS_1984。原数据范围较大,可通过“掩膜提取”工具进一步得到各城市的数据。原数据默认色彩为灰度,可在属性中设置分级色彩,以成都市2009年数据为例,经过初步处理得到图1。利用相同的方法对历年数据进行整理,由此可得到该区域人口密度变化趋势图,如图2所示。

图1 2009年成都市人口密度分布图(单位:人/km2)
图2 2001-2020年成都人口密度分布变化情况(单位:人/km2)

(2)MATLAB平台

由于源数据为基于遥感影像处理得到的连续数据,因此不能在ArcGIS中直接查看各个栅格的属性值,即无法得到在ArcGIS中读取每个栅格的具体人口值。

因此我们需要用到MATLAB中的“geotiffread函数”实现对遥感图像的信息读取。

以成都数据为例,读取后可得到一个二维矩阵和一个元胞:矩阵Data中记录了各个栅格点位的属性值,即各个栅格的人口数;元胞中记录了数据的坐标系、空间尺度数据等。

图3 geotiff数据信息

完成读取后,在MATLAB中可利用“surf”函数绘制人口密度的三维曲面图,可更加直观地看出各区位的人口密度情况,如图4所示。

图4 2020年成都市人口密度示意图(单位:人/km2)

进一步,对多年连续的数据进行统一整理,利用“surf”函数以及“moviein”函数制作动图三维曲面图,可直观地看出各区位的人口密度变化情况。

图5 2001-2020成都人口密度分布变化情况(单位:人/km2)

(3)小结

通过ArcGIS和MATLAB两个平台可以实现对遥感数据的初步处理。利用ArcGIS强大的地理分析功能,可以将人口密度数据与其他要素数据(路网、POI点等)进行空间分析;在MATLAB中则可以更好地进行数值分析以及有更加的展示效果。

(1)数值读取

利用MATLAB中的“geotiffread函数”读取成都市历年人口密度数据。将2000-2020年的遥感影像进行读取,最终可整理得到一个三维矩阵,前两个维度为栅格的空间维度,第三维度为时间维度。

(2)数据清洗

对矩阵中的数据进行清晰。首先过滤出负值、空值。然后剔除异常值,若某个栅格在某一年的值远超出先前三年和未来三年的平均水平,则将其过滤。

(3)Logistic预测模型

对每个栅格历年人口密度数据进行拟合、外推,可得到每个栅格的人口预测数据。需要注意的是,人口变化与地方政策、基建设施等诸多因素相关,这种趋势外推方法只适用于短期人口预测。

目前较为常用的短期人口预测方法有Logistic模型、灰色预测模型、BP神经网络等。由于需要对每个栅格的历年数据进行迭代处理,考虑到时效性和公司电脑友好性,选择Logistic模型进行拟合外推。

在每个栅格内,基于2000-2020的数据进行拟合,进而得出每个栅格点的拟合优度状况,如下图所示。大部分中心城区栅格的R2值在0.7以上,但是外围区域的拟合状况较差。

图6 各个栅格Logistic预测的R2值示意图(注:R2值界与0~1之间,代表了模型的拟合优度,其值约高,说明模型的拟合效果越好。)
图7 成都市人口密度分布预测结果(单位:人/km2)

(4)问题及改进思路

利用历史数据推算人口是一种较为简陋的预测方法,无法反映交通、住房、政策等因素的影响。尤其在本案例中,每个栅格的空间尺度为1km*1km,拟合结果不佳。

在此提供以下几种改进思路:

①利用机器学习算法模拟人口密度数据与住房建设数据的相关性,而后基于未来的新投入市场的住房信息预测人口。

②根据地形、交通、政策等因素,将栅格集计为若干个交通小区,分别对不同的小区的人口发展趋势进行判断,进而预测人口分布。

本文以成都市数据为例,介绍了人口密度空间数据的处理方法。人口密度数据是支撑城市空间规划、基础设施建设决策的重要数据。利用过往年份的人口密度数据可用于交通、医疗、基建等领域的空间分析。通过既有人口密度数据进行趋势外推,可以较为简单直观地把握该区域的人口变化趋势。

从城市轨道交通规划角度出发,主要的应用场景有:

(1)在国土空间规划阶段,支撑分析城市的发展历程,研判城市发展格局,为城市把脉诊断。

(2)在线网规划阶段,直观了解当地人口分布及历年变化趋势,支撑决策线网布局。

(3)在建设规划筹备阶段,支撑轨道交通项目建设时序的决策。

(4)在项目后评价阶段或建设规划中期评估阶段,利用过往年份数据对既往建设项目的评价。

(5)探索性研究城市与轨道交通建设的互动关系。

(6)与手机信令数据、人口统计数据互相校核,提高数据可靠性。


数据连接:

Population Counts

如果觉得有用,恳请点赞。水平有限,如有谬误请交流指正!祝大家工作顺利,学业有成!

平台注册入口