Combining Multiple Classifiers Based on Evidence Theory for Large Scale Vegetation Types Classification by Remote Sensing Images

HU Bo; JU Hong-bo; LIU Hua; HAO Shuang; LIU Hai

doi:10.13275/j.cnki.lykxyj.2017.02.002

Objective Based on the evidence theory principle, the research will realize a combination of multiple classifiers quickly and efficiently for large scale vegetation types classification according to the temporal and the extensive features of remote sensing images. Method The classification system imitated the frame of discernment concept and extracted training samples with quick sampling obtaining method for large area vegetation. Taking the feature images of vegetation types obtained by different single classifiers as evidence sources, the feature images were normalized to the basic probability assignment for expressing the credibility and the basic probability assignments were combined based on the combination rules of evidence theory. The combination results were classified by cumulative belief value principle. Result The single classifier's accuracy range was 60%~70% while the pairwise combinatorial classifier's accuracy range was 70%~80%, but the combination of three classifiers accuracy was 80.84%. Conclusion The results showed that multi-classification based on evidence theory can improve the classification precision. The higher the single classifier's accuracy and the more the related evidence sources, the higher the classification results' accuracy would be.

HTML

利用遥感技术对森林、湿地、荒漠等进行调查监测^[1-5]，提供科学有效的数据支撑具有重要的研究意义。我国的森林资源不仅分布辽阔，还时时处于变化中，利用遥感数据时效性和宏观性的特点，科学、快速、准确地提取大区域植被类型及其变化规律信息是森林资源现代化管理的主要内容之一。

面向国家级或省级的大区域植被遥感分类大多基于中低分辨率遥感影像的像元特征，随着分类研究的发展，研究人员发现单分类算法存在不同程度的错分和误分现象，但不同分类器错分和误分的像素并不集中也没有统一规律，说明不同的分类器之间的性能存在差异。也就是说，分类器间存在互补性，某一分类算法错分或误分的样本在另一分类器中存在正确识别的可能，基于这一发现产生了多分类器组合分类思想^[6-9]，多分类器组合的新分类方法也得到越来越广泛的实验验证和应用。

证据理论是以A. P. Dempster的研究工作为基础发展起来的，Dempster的研究是用概率范围去模拟事件发生的不确定性，G.Shafer将证据理论推广研究应用于处理不确定性信息，因此证据理论也称为D-S理论。证据理论的主要特征包括：(1)发展了Bayes概率理论，具有表达不确定信息的能力，相比Bayes概率理论，证据理论的先验数据更容易获取，具有灵活性。(2)证据理论是一种可以综合多源信息的融合方法^[10-13]。证据理论的合成规则，可以对不同来源的专家知识进行很好的融合，并且对数据格式的限制较低。因此，采用证据理论进行多分类器组合，将不同分类规则得到的同一区域的不同分类结果优势信息进行融合，可以得到一个精度更高的综合分类结果。

本研究基于证据理论原理实现大区域植被遥感分类。已有证据理论分类的研究，大多将多光谱波段作为融合的证据源，或者对多种专题数据进行信息融合，而多光谱遥感数据较难避免云和阴影的影响，专题数据存在时效性不统一的问题。实验数据选取16天合成一期的2001年23期NDVI时序数据，减少云影噪声影响的同时能够反映植被完整的物候周期信息。通过IDL程序将多分类规则处理得到的植被类型特征信息归一化处理为基本概率赋值作为证据源数据，依据证据理论实现多源信息综合，将组合结果依据最大信任度原则确定植被类型。另外，为了避免不同证据源低信任值相近可能导致的“Zadeh”悖论问题，设置了超集假设参与组合。实验过程中尽量减少人为干预，依靠分类算法挖掘实验数据的时间空间特征，实现了大区域植被类型信息客观、快速、高效地提取。

1. 实验区域与实验数据

1.1. 实验区域概况

本研究选取寒温带针叶林区域作为实验区，该区域位于127°20′ E以西，49°20′ N以北的大兴安岭北部及其支脉伊勒呼里山地，总面积约为211 600 km²。

该区域植被覆盖率高，地带性植被以兴安落叶松(Larix gmelini (Rupr.) Rupr.)林为主，其间有少量灌木分布，是我国重要的木材产地。由于研究区属于寒温带气候，分布着大量的永久冻土层，水分下渗困难，形成零星水体，地表积水使湿地广泛发育，其中草本沼泽分布在海拔900 m以下地带，海拔300 m以下有森林草原带分布。该区域平坦谷地区域有农业分布但农业不发达^[14]。

1.2. 实验数据

本实验参考2001年1:100万中国植被图矢量数据中寒温带针叶林区域的植被分布信息以及2000年中国土地覆盖1 km栅格数据(简称WESTDC)中实验区域的非植被分布信息^[15-16]。

根据实验区域宏观大范围特点，选取空间分辨率250 m的MODIS影像作为实验数据。为降低云、影的影响，选择MODIS的L3级科学数据集中陆地专题产品MODIS13Q1中的归一化植被指数(NDVI)时序数据文件^[17]，该产品每期间隔为16天。减少云影影响的同时，利用2001年23期NDVI影像数据体现的各类植被的生长物候周期信息，参考已有资料数据实现该区域植被遥感分类。

以上矢量、栅格数据均具有空间坐标信息，且进行过影像配准，精度限制在一个像元内。

3. 结果与分析

3.1. 证据累积过程分析

本实验辨识框架为{乔木、灌木、草地、湿地、农田}，超集假设Θ=[乔木、灌木、草地、湿地、农田]。以影像行列定位为(1000, 1000)的像素P的类型确定过程为例。

实验区域时序NDVI影像结合快速采集的样本数据，通过最小距离、最大似然和时序SAM规则生成的类型特征影像，经过归一化处理得到多证据源的基本概率赋值。P点处的3个证据源的基本概率赋值，如表 1所示：

项目 Items	最小距离规则 m(X₁)Minimum distance	最大似然规则 m(X₂)Maximum likelihood	光谱角规则 m(X₃)Spectral angle
乔木Tree	0.264	0.288	0.248
灌木Shrub	0.250	0.237	0.239
草地Grass	0.152	0.201	0.165
湿地Wetland	0.180	0.254	0.189
农田Crop	0.151	0.017	0.156
θ	0.003	0.003	0.003

Table 1. The mBpa values of 3 evidence sources

将归一化处理得到的三组证据源数据，依据证据理论合并原理进行两两规则证据源组合和3个规则证据源的组合。P点处的组合证据源的基本概率赋值，如表 2所示：

项目 Items	乔木 Tree	灌木 Shrub	草地 Grass	湿地 Wetland	农田 Crop	θ
m(X₁⊕X₂)	0.354	0.275	0.144	0.213	0.014	8*10^-6
m(X₁⊕X₃)	0.314	0.286	0.122	0.164	0.114	7*10^-6
m(X₂⊕X₃)	0.336	0.266	0.158	0.226	0.014	7*10^-6
m(X₁⊕X₂⊕X₃)	0.399	0.299	0.109	0.183	0.010	≈0.00

Table 2. The pixel values of combined classifiers based on evidence theory

依据信任函数原理，单一元素假设的信任函数即为该元素的基本概率赋值。因此，实验中各类型的信任函数值与各类型的基本概率赋值相等，即Belief(i)= mBpa(i)，其中i为对应的类型。

最后，由最大信任度原则确定实验影像中P点处乔木类的基本概率赋值最大，因此P为乔木类。

表 2中组合证据源的基本概率赋值表明，P点处乔木和灌木分别是第一优势类和第二优势类。两两规则证据源组合的mBpa(乔木)与mBpa(灌木)的差值分别为0.079、0.048、0.07，3个规则证据源组合的mBpa(乔木)与mBpa(灌木)的差值为0.1，差值增大。乔木类型特征随着合成次数的增加而增大，与非乔木类型的特征差异更为显著。

因此，通过证据理论合成规则，合成证据源越多合成次数越多，优势类的基本概率赋值与其他类的差值越大，类型特征优势越明显。

3.2. 分类结果精度评价与分析

在实验区域随机布设2 000个样点，将中国植被图与WESTDC土地覆盖图中同一类型重叠的区域视为真实地类分布，落于真实地类分布区域内的样点作为实验的验证样本。

单分类器得到的分类结果的生产精度、用户精度和总体精度，以及3个单分类器的各平均精度，如表 3所示：

分类规则 Classifier	生产精度Production accuracy/%					用户精度User accuracy/%					总精度 Overall accuracy/%
分类规则 Classifier	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	总精度 Overall accuracy/%
最小距离Minimum distance	74.92	83.33	53.98	57.50	53.85	86.48	9.8	88.41	44.66	17.28	66.60
最大似然Maximum likelihood	81.68	22.22	60.47	47.50	19.23	78.82	28.57	69.97	31.15	41.67	69.88
时序SAM Spectral angle	69.14	94.44	52.21	53.75	57.69	86.04	10.34	80.82	34.96	19.74	62.77
平均精度Mean accuracy	75.25	66.66	55.55	52.92	43.59	83.78	16.24	79.23	36.92	26.23	66.42

Table 3. Precision evaluation of single classifiers

两两规则组合分类得到的分类结果的生产精度、用户精度和总体精度，以及组合分类器的各平均精度，如表 4所示：

分类规则 Classifier	生产精度Production accuracy/%					用户精度User accuracy/%					总精度 Overall accuracy/%
分类规则 Classifier	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	总精度 Overall accuracy/%
最小距离+最大似然Min+max	88.28	61.11	67.55	62.50	46.88	84.65	21.15	85.45	49.02	71.43	78.14
最大似然+时序SAM Max+sam	84.16	72.22	69.32	56.25	50.00	83.88	27.66	79.93	44.12	69.57	76.19
时序SAM+最小距离Sam+min	80.69	100.00	57.82	72.50	59.38	87.79	15.52	92.89	42.03	36.54	72.56
平均精度Mean accuracy	84.38	77.78	64.90	63.57	52.09	85.44	21.44	86.09	45.06	59.18	75.63

Table 4. Precision evaluation of combined classifiers

表 3中最大似然分类器的精度最高，总精度为69.88%，最小距离分类器次之，总精度为66.60%，时序SAM分类器的总精度最小为62.77%，单分类器的平均总精度为66.42%。

表 4中最大似然与最小距离规则组合的分类结果精度最高，其总精度为78.14%，时序SAM与最小距离规则组合的分类结果精度最低，其总精度为72.56%，两两规则组合分类结果的平均总精度为75.63%，大于单分类器的平均总精度。对比单分类规则和两两规则组合分类结果中各类植被的平均生产精度和平均用户精度，两两规则组合分类结果的各平均精度都有提高。

可见证据理论组合分类规则的方法对分类总精度、各类型生产精度和用户精度均有不同程度的提高；并且参与组合的单分类规则精度越高，越能有效提高组合分类的精度。

生产精度、用户精度和总体精度与单分类器、两两规则组合分类器的平均精度对比分析，如表 5所示：

分类规则的平均精度 Mean accuracy of classifiers	生产精度Production accuracy/%					用户精度User accuracy/%					总精度 Overall accuracy/%
分类规则的平均精度 Mean accuracy of classifiers	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	乔木Tree	灌木Shrub	草地Grass	湿地Wetland	农田Crop	总精度 Overall accuracy/%
单分类算法Single classifier	75.25	66.66	55.55	52.92	43.59	83.78	16.24	79.23	36.92	26.23	66.42
两两规则组合Two classifiers combined	84.38	77.78	64.90	63.57	52.09	85.44	21.44	86.09	45.06	59.18	75.63
三个规则组合Three classifiers combined	89.72	83.33	69.32	76.25	53.13	86.15	34.09	91.80	48.03	89.47	80.84

Table 5. Precision evaluation of single and combined classifiers

表 5中单分类器分类结果的平均总精度为66.42%，两两规则组合分类结果的平均总精度为75.63%，3个规则组合分类结果的总精度最高为80.84%。对比单分类规则、两两规则组合、3个规则组合分类结果中各类植被的平均生产精度和平均用户精度，3个规则组合分类结果的各精度最高。因此，证据理论可以实现多分类算法的组合，并且证据源越多，越能提高分类精度。

4. 结论

(1) 本研究针对大区域植被遥感分类，基于证据理论组合多分类规则实现了寒温带针叶林区域的植被遥感分类研究。比较分析了组合分类器与单分类器的分类精度，认为证据理论组合分类算法相比单分类算法，实现了分类总精度、各类型生产精度和用户精度的提高。

(2) 实验表明基于证据理论实现多分类规则组合的过程中，参与组合的证据源越多，分类结果的可信程度越高，分类结果的精度越高；参与组合的证据源对实验区描述越准确，对分类结果精度的提高越显著。因此，开展更多单分类算法的比较研究，探索更适合参与组合的单分类算法，以实现更好的分类效果作为进一步的研究内容。

(3) 本研究利用多种单分类算法挖掘时序数据信息，通过证据理论对来自于不同分类规则的证据源信息进行融合，综合了多分类算法的优势特征。相比多光谱数据的合成分类，减少云影影响的同时结合了植被物候信息；相比专题资料数据的合成结果，能够更客观的体现遥感影像的时间空间特点，更好的反映实验区域植被分布的时效性信息。该方法人为干预较少，能够快速、高效地实现大区域植被类型信息的提取。

Reference (18)

[1]	Darren Pouliot, RasimLatifovic , Natalie Zabcic. Development and assessement of a 250 m spatial resolution MODIS annual land cover time series(2000-2011) for the forest region of Canada derived from change-based updating[J]. Remote Sensing of Environment, 2014, 140(): 731-743. doi: 10.1016/j.rse.2013.10.004
[2]	陈巧, 陈永富, 鞠洪波. 基于3S技术的天保区植被变化监测方法研究[J]. 林业科学研究, 2013, 26(6): 736-743.
[3]	刘华, 鞠洪波, 邹文涛. 长江源典型区湿地对区域气候变化的响应[J]. 林业科学研究, 2013, 26(4): 406-413. doi: 10.3969/j.issn.1001-1498.2013.04.003
[4]	姚爱东, 车腾腾, 姜丽娜. 甘肃民勤县荒漠化区未利用地的遥感分类研究[J]. 林业科学研究, 2014, 27(2): 195-200.
[5]	刘华, 陈永富, 鞠洪波. 美国森林资源监测技术对我过森林资源一体化监测体系建设的启示[J]. 世界林业研究, 2012, 25(6): 64-68.
[6]	Doan H T, Foody G M. Increaseing soft classification accuracy through the use of an ensamble of classifiers[J]. International Journal of Remote Sensing, 2007, 28(20): 4606-4623.
[7]	柏延臣, 王劲峰. 结合多分类器的遥感数据专题分类方法研究[J]. 遥感学报, 2005, 9(5): 555-563.
[8]	夏俊士, 杜培军, 张伟. 遥感影像多分类器集成的关键技术与系统实现[J]. 科技导报, 2011, 29(25): 22-26.
[9]	张智超, 范文义, 孙舒婷. 基于多种分类器组合的森林类型信息提取技术研究[J]. 森林工程, 2015, 31(3): 75-80. doi: 10.3969/j.issn.1001-005X.2015.03.018
[10]	Koki I, Kenlo N, Tsuguki K. Creation of new globalland cover map with map integration[J]. Journal of Geographic Information System, 2011, 03(3): 160-165.
[11]	Hoyosa A P, García-Haroa F J, San-Miguel-Ayanz J. Amethodology to generate a synergetic land-cover map byfusion of different land-cover products[J]. International Journal of Applied Earth Observation and Geoinformation, 2012, 19(10): 72-87.
[12]	陈博. 遥感图像融合及应用研究[M]. 北京: 中国科学技术大学, 2009.
[13]	王欣. 多传感器数据融合问题的研究[D]. 吉林: 吉林大学, 2006.
[14]	韩杰, 温瑞勇, 迟占颖. 浅谈大小兴安岭森林植被分布[J]. 内蒙古科技与经济, 2004, (16): 111-113. doi: 10.3969/j.issn.1007-6921.2004.16.058
[15]	李俊祥, 达良俊, 王玉洁. 基于NOAA-AVHRR数据的中国东部地区植被遥感分类研究[J]. 植物生态学报, 2005, 29(3): 436-443. doi: 10.3321/j.issn:1005-264X.2005.03.014
[16]	冉有华, 李新, 卢玲. 基于多源数据融合方法的中国1km土地覆盖分类制图[J]. 地球科学进展, 2009, 24(2): 192-203. doi: 10.3321/j.issn:1001-8166.2009.02.009
[17]	廖靖, 覃先林, 周汝良. 利用2种植被指数监测中国6种典型森林生长期的比较研究[J]. 西南林业大学学报, 2014, 34(3): 57-61.
[18]	李华朋, 张树清, 孙妍. 集成多时相ETM+影像的证据推理湿地遥感分类[J]. 吉林大学学报: 地球科学版, 2011, 41(4): 1246-1252.

Combining Multiple Classifiers Based on Evidence Theory for Large Scale Vegetation Types Classification by Remote Sensing Images

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Proportional views