-
森林是陆地生态系统的重要组成部分,碳储量对森林的固碳能力有重要影响[1-2]。随着全球气候变暖,森林生态系统对气候的影响成为了焦点,森林地上碳储量的相关研究不断扩展,广度和深度逐渐提高[3-4]。无论是在区域小尺度还是大尺度上,估测过程中都有着极大的不确定性。因此,如何减少这些不确定性,提高碳储量的估测精度成了研究的重点。
不确定性作为自然界中普遍存在的一种现象,包括不准确、模糊、不明确等。而碳储量计算过程中主要涉及3种不确定性:模型不确定性、测量不确定性、抽样不确定性[5-7]。Shettles等[8]将模型不确定性作为最大的误差源,约占总不确定性的70%。模型的不确定性来源主要包括变量的不确定性、残差变异、参数误差等。Michie等[9]估算生物量时计算了异速生长模型引起的误差。产生误差的主要原因是缺乏模型验证数据、样本数量不足、树种与特定异速生长模型不匹配。测量不确定性主要受测量条件、技术、设备和人为因素的影响[10-11]。抽样不确定性主要受样地大小、样本量、抽样方法和自然条件的影响。秦立厚[10]研究分析了浙江省森林生物量估算中模型的不确定性。傅煜[11]采用系统抽样的方法估测了江西省杉木生物量,通过蒙特卡洛法反复模拟单木生物量模型的过程,估测出江西省杉木地上总生物量及不确定性。因此,如何计算这些不确定性以提高森林碳储量估测的精度成为主要挑战。
传统上,森林资源调查数据是通过实地调查获得,耗时费力,并且调查结果存在很大误差。遥感技术具有快速、准确、对森林无损的优点,能够对森林进行连续的宏观监测[12]。目前在碳储量估测的研究中,Landsat8-OLI数据具有覆盖范围广、分辨率适中、免费下载等优点[13]。遥感数据能够对树冠的光谱反射率进行记录,可用于研究森林中植被的光合吸收,这与研究碳储量存在相关性。张加龙[14]等使用Landsat8-OLI影像结合梯度提升决策树模型估测出香格里拉高山松的地上生物量。采用遥感数据估测碳储量,仍然存在因子选取、建模方法、数据饱和等不确定性问题[14-15]。由于光谱影像的空间结构和纹理信息存在一定的局限性,在遥感影像分析中无法消除同物异谱、同谱异物的现象。仅基于光谱信息估测森林碳储量具有极高的不确定性。纹理特征考虑像素之间的空间关系,可以表示图像中的灰度变化,提高空间信息的识别程度[16]。研究结果表明,添加纹理特征可以有效提高模型的精度,因此考虑纹理特征对研究模型不确定性的影响具有实际意义[17]。本研究将传统的模型分析方法和蒙特卡洛模拟方法相结合,使用随机森林进行建模预测,用蒙特卡洛进行不确定性计算,反复采用随机森林联立蒙特卡洛(Random forest-Monte Carlo,RF-MC)对模型进行估测及不确定性计算,直至模型精度及不确定性趋于稳定达到最优;计算区域尺度的碳储量,并为不确定性提供稳定可靠的测定,将不确定性分为变量误差和模型误差引起的不确定性;结合蒙特卡洛和模型分析的双重优点,减少模型误差对碳储量估算的不确定性;为确定估测结果精度是否满足要求,采用相对均方根误差(rRMSE)用于量化和分析不确定性。
本研究以高山松为研究对象,采用Landsat8-OLI影像、DEM和样地数据。基于Landsat8-OLI影像提取单波段因子、比值植被指数、纹理因子、信息增强因子、地形因子、植被生长因子等变量。使用随机森林算法建立高山松地上碳储量估测模型,结合蒙特卡洛模拟分析不同变量组合对碳储量估测及不确定性的影响。
-
研究区位于云南省迪庆州香格里拉市,99°20′~100°19′ E、26°52′~28°52′ N,总面积为11 613 km2。地形起伏大,海拔高差达到4 042 m,森林覆盖率达74.99%,森林资源丰富。主要优势树种为云杉( Picea asperata Mast.) 、云南松( Pinus yunnanensis Franch.) 、高山松( Pinus densata Mast.) 、高山栎( Quercus semicarpifolia Smith.)等[18]。高山松是香格里拉市的优势树种之一,占全市面积的16.18%。纯林主要分布在2 600~3 500 m海拔的向阳山坡和河流两岸。
-
使用USGS下载的Landsat8-OLI影像数据,选取3景2015年云量较少的影像,具体信息如表1所示。影像使用ENVI5.3软件进行预处理。通过辐射定标、大气校正,消除地形和气溶胶对地物反射的影响。最后使用坡度匹配法进行地形校正,两次校正后,北坡和南坡的地形阴影平均值接近,阴坡部分的反射率得到阳坡部分反射率的值补偿。
调查年
Survey
yearID 获取时间
Acquisition
time云量
Cloud cover/
%
2015LC1310412015354LGN00 2015-12-20 1.53 LC1320402015313LGN00 2015-11-09 1.24 LC1320412015313LGN00 2015-11-09 0.54 Table 1. Images of the study area
-
研究区共60个样地,样地调查时间为2015年11月至2016年3月。样地大小为30 m × 30 m,每块样地间隔3 km以上。详细记录了森林树种、胸径(DBH)、树高、样地中心坐标、海拔、坡度、坡位等属性[19]。使用二元材积表计算每个样地中林木的蓄积量。
-
(1)高山松单株生物量模型[20]如下:
其中,W为单株生物量,D为胸径,H为树高。
(2)高山松的碳储量计算公式为:
Ct为高山松碳储量,fc为含碳系数,含碳系数0.513 1[21]。外业调查数据见表2。
指标
Index平均胸径
Mean DBH/
cm平均树高
Mean height/
m地上碳储量
Aboveground
carbon storage/
(t·hm−2)最大值 Max 22.76 14.18 87.10 最小值 Min 6.85 4.48 6.65 平均值 Mean 14.80 8.70 29.61 标准差 SD 3.68 2.11 16.33 Table 2. Field survey data
-
以碳储量为因变量,遥感影像因子为自变量。根据各变量与碳储量的相关性选择最优因子,构建基于遥感特征因子的碳储量估测模型。为研究纹理特征对碳储量估测的影响,设置像元大小为5 × 5、9 × 9的窗口,以提高模型的性能[18,22]。
为了提高模型的精度,本研究提取的遥感因子主要包括7个单波段因子、5个植被指数、8个波段组合因子、3个信息增强因子、9个纹理因子、3个地形因子、1个植被生长因子。具体变量信息如表3所示。
因子类型
Facter type因子信息
Factor information单波段因子 Single band factor C、B1、B2、B3、B4、B5、B7 植被指数 Vegetation index NDVI、DVI、ND32、ND53、ND57 简单比值指数因子 Simple ratio index factor B4/B3、B4/B2、B5/B3、B5/B4、B5/B7、B7/B3、B3/Albedo、B4*B3/B7 信息增强因子 Information enhancement factor Albedo、VIS123、MID57 纹理因子 Teture factor 均值(ME)、方差(VA)、均一性(HO)、对比度(CO)、
相关性(CR)、相异性(DI)、角二矩(SM)、熵(EN)、偏度(SK)地形因子 Topographical factor 海拔、坡度、坡向 植被生长因子 Vegetation growth factor VFC 注:表中C为海岸波段,B1、B2、B3、B4、B5、B7分别代表波段1、波段2、波段3、波段4、波段5、波段7;植被生长因子的计算公式: $VFC=(NDVI-{NDVI}_{{\rm{min}}})/({NDVI}_{{\rm{max}}}-{NDVI}_{{\rm{min}}})$其中,NDVImax与NDVImin分别为同一像素某一时间序列中的NDVI最大值与最小值。 Table 3. Variable information
-
随机森林(RF)是一种基于决策树的机器学习方法,其特点是采用带替换的随机抽样方法从样本数据中提取一组n个数据作为训练集,根据这些数据构建分类回归树。RF是目前最有效的非参数回归模型之一。与参数回归方法相比,该算法不需要检验变量的正态性和独立性等假设。在一定程度上可以避免过拟合现象的出现,对异常值的处理效果较好,可处理高维度数据[23]。能够评估各个特征在模型中的重要性。节点的分裂属性通常用基尼系数(Gini)或信息熵来评估,基尼系数可用于计算RF回归中每个模型特征因子的重要性。将变量重要性评分用V来表示,假设有m个特征x1, x2, x3, ···, xc,现在要计算出每个特征xj的Gini指数评分VjGini,亦即第j个特征在RF所有决策树中节点分裂不纯度的平均改变量。计算公式为:
其中k为类别数,Pmk是k在m个节点中的占比。
特征xj在节点m的重要性,即节点m分支前后的Gini指数变化量如下:
GiniL和GiniR分别表示第m个节点前后的Gini指数。每个特征的重要性可以通过对所有特征的基尼指数进行归一化来获得。
-
蒙特卡洛模拟(MC)的基本思想是反复模拟一个随机事件的发生,并根据随机事件发生的频率估计其概率特征。由于区域尺度碳储量估测模型中的不确定性来源复杂且难以测量,因此MC方法在解决这个问题方面具有显著优势。反复模拟碳储量模型的建立和估测,得到碳储量估测值和误差的概率分布[24-25]。碳储量估测值的误差用均方根误差(RMSE)和相对均方根误差(rRMSE)表示。具体方法如下:
(1)使用遥感模型对所有样地的碳储量进行无偏估计
$ {\widehat{g}}_{i} $ 。(2)假设残差服从
$ {\epsilon }~\mathrm{N}\left(0,{\sigma }^{2}\right) $ 的正态分布,采用一个符合$ \epsilon \beta~\mathrm{N}\left(0,{\sigma ̂}^{2}\right) $ 的随机生成的数组来模拟新的残值$ \epsilon \beta $ ,其中$ {\sigma ̂}^{2} $ 是碳储量$ {\widehat{g}}_{i} $ 的方差。(3)将碳储量的估测值
$ {\widehat{g}}_{i} $ 与新的残差$ \epsilon \beta $ 相结合,得到了新样地碳储量$ {g}'_{i} $ 。计算方差$ Var\left({g}'_{i}\right) $ 的公式为:式(5)中,n为样地数。
(4)重复第2步和第3步,直到
$ Var\left({g}'_{i}\right) $ 趋于稳定,并且在m次模拟后,计算每个样地的碳储量均值μ、均方根误差RMSE和相对均方根误差rRMSE;计算公式为: -
由于波段反射率、植被指数、样地数据与碳储量之间具有较高的相关性,因此根据各样地碳储量的差异,选取Stock volume、B53、B73、VFC、ND53进行相关性分析。所选特征因子之间的相关性如图1所示。右上角的图为成对特征散点图,沿对角线分布的为密度直方图,左下角为成对特征的核密度图。密度直方图显示了碳储量和蓄积量之间的正相关关系,核密度图和散点图显示出碳储量与蓄积量的相关性较强,因此把蓄积量作为建模因子。根据贝叶斯相关矩阵图可以看出5个特征因子与碳储量的相关性较强,表明波段反射率、植被指数、样地数据与碳储量的相关性较强,所以选取Stock volume、B53、B73、VFC、ND53 等5个因子构建碳储量模型。
-
计算所选多光谱特征的各种属性,包括单波段光谱数据的均值、变异系数、标准差、方差、植被指数、波段比值、DEM数据、样地数据和基于GLCM的纹理特征。通过RFE去除具有高相关性的变量后[26],共保留了17个自变量。模型精度不一定会随着自变量数量的增加而增加,建模中包含过多的变量因素反而会增加模型的复杂度;因此,应剔除对模型精度没有显著贡献或降低模型精度的某些变量。只选择有代表性的变量进行建模。当使用10个因子建模(VFC、蓄积量、B53、B73、ND53、坡向、R9B4CR、R9B5VA、R5B3SM、R5B3SK)时,模型达到最佳精度(RMSE=5.539 t·hm−2,MAE=4.319 t·hm−2)。所有潜在变量的个数与模型精度的关系如图2所示。
-
本研究中的模型是使用RF方法构建的。为量化不同类型变量对模型的拟合度和不确定性的影响,选取10个自变量,根据属性类型组合成4种不同的方案。模型1选择VFC、蓄积量、B53、B73、ND53进行建模;模型2选择坡向、VFC、蓄积量、B53、B73、ND53进行建模;模型3选择VFC、蓄积量、B53、B73、ND53、R9B4CR、R9B5VA、R5B3SM、R5B3SK进行建模;模型4选择坡向、VFC、蓄积量、B53、B73、ND53、R9B4CR、R9B5VA、R5B3SM、R5B3SK进行建模。最后,用MC来计算每个模型的不确定性。结果如表4所示。
变量 Variable R² RMSE/(t·hm−2) MAE/(t·hm−2) rRMSE/% 光谱和样地数据 Spectral and sample plots data 0.549 11.289 8.552 38.13 光谱和样地数据 + DEM Spectral and sample plots data + DEM 0.670 9.465 7.698 31.97 光谱和样地数据 + 纹理特征 Spectral and sample plots data + texture features 0.825 7.036 5.666 23.76 光谱和样地数据 + DEM + 纹理特征 Spectral and sample plots data + DEM + texture features 0.892 5.539 4.319 18.70 Table 4. Comparison of accuracy of different regression models
结果显示,基于光谱和样地数据的RF-MC模型精度最低,R2为0.549,RMSE为11.289 t·hm−2,MAE为8.552 t·hm−2。分别引入DEM和纹理特征后,模型精度有所提高。其中引入纹理特征的模型精度提高较大,说明纹理特征可以有效提升模型精度。同时引入DEM和纹理特征的RF-MC模型精度最优,R2为0.892,RMSE为5.539 t·hm−2,MAE为4.319 t·hm−2。该模型比其他相关研究的拟合程度高,如温小荣等人对建德市杉木生物量的估测R2仅为0.8[27]。
-
由表4可知,模型的不确定性随R²的增大而降低,模型的残差变异会影响预测结果,从而影响预测值的方差。因此残差值的增大会导致模型R²降低,模型的预测结果受到限制,不确定性随之增加。4种模型的不确定性随着DEM和纹理特征的引入逐渐降低,rRMSE分别为38.13%,31.97%,23.76%,18.70%。随着DEM和纹理信息的同时引入,原本仅基于光谱和样地数据模型的不确定性减少了19.43%,说明DEM和纹理特征对降低高山松地上碳储量反演模型的不确定性有一定作用。
-
4种模型中不同变量的重要性如图3所示。
Gini指数用于计算RF回归中每个模型特征的重要性。每个因子对模型的重要性如图3所示,第1、2种模型中蓄积量占比最多;添加纹理特征后,模型3和模型4中纹理因子的贡献率超过蓄积量,但蓄积量仍然在各模型中占比很大,说明把蓄积量引入作为建模因子有很大的发展潜力。纹理特征作为建模贡献率最高的因子可有效提高模型的精度。
-
为了量化不同类型变量对模型精度的影响,本研究将变量组合成4种模型,分别进行建模和预测。预测结果的散点图如图4所示。
根据图4,模型精度与拟合度呈正相关。基于光谱和样地数据的RF-MC模型,模型拟合度R2为0.549,逐步引入DEM数据和GLCM纹理特征后,R2最终增加到0.892。随着不同类型变量的引入,R²逐渐增大,模型的不确定性得到有效降低。表明RF-MC方法在估测地上碳储量方面效果显著,建模因子的选择对模型的精度及不确定性有显著影响。
Estimation and Uncertainty Analysis of Aboveground Carbon Storage of Pinus densata based on Random Forests and Monte Carlo
- Received Date: 2022-12-12
- Accepted Date: 2023-03-10
- Available Online: 2023-10-20
Abstract: