遥感影像语义分割制图已经在自然资源调查和监测中广泛应用,并得到了良好的效果。对于遥感语义分割制图项目,拥有更多的训练样本能够使模型更好地提取目标特征,从而得到更高的制图精度。然而,由于遥感地理景观的复杂性和土地分类系统的不确定性,遥感制图常常需要专业人员通过手动标注生成尽可能多的数据样本,这会消耗较高的标注预算的时间成本。策略性采样旨在保证模型精度的前提下,尽可能减少制作新训练样本的工作量,但这一方法在遥感语义分割制图领域并没有得到充分研究。
浙江大学环境与资源学院叶粟课题组,基于meta分析和案例分析结合的方法,探究了遥感语义分割制图中的策略性采样最佳应用。研究探究了策略性采样相关的三个关键因素:样本数量、样本分布和迁移方法。首先,meta分析检索了334篇语义分割遥感制图的最新文献,总结了不同制图场景下的训练样本使用情况。其次,研究以耕地地块制图为案例,构建了一个超过12000张标注图像的遥感耕地地块数据集,并使用基准深度学习模型评估了三个策略性采样因素对模型精度的影响。研究还提出了一种针对语义分割图像样本的平衡采样方法,利用图像样本的信息熵和边缘复杂度对样本多样性进行分类。研究为遥感语义分割制图中的策略性采样方法提供了启发式框架,为实际场景中样本选择提供了实践指导。研究结果以“Strategic sampling for training a semanticsegmentation model in operational mapping: Case studies on cropland parcelextraction”为题,于2025年9月20日发表在Remote Sensing of Environment上(https://doi.org/10.1016/j.rse.2025.115034)。
图1 策略性采样的三个关键因素和实验设计
研究提出了一种针对语义分割图像样本的平衡采样方法,该方法基于识别对象的信息熵和边缘复杂性对样本多样性进行分类。信息熵可以代表样本中识别对象的信息量,边缘复杂度代表识别对象的结构复杂性。基于二维分类指标,不同类别代表了不同的耕地地块模式,例如“低信息熵-低边缘复杂度”代表大规模规则耕地或边缘清晰的非农业区,而“高信息熵-高边缘复杂度”代表破碎的小规模耕地与背景交错的复杂区域。多样化、具有代表性的训练样本在理论上可以减少所需的总体样本数量,且保证模型多样化特征提取和平衡关注各类别对象。
图2 图像样本平衡采样实现过程
Meta分析结果表明,334篇文献中有102篇提供了样本数量的相关信息,其遥感制图使用的样本数量中位数为4.2%。在样本分布方面,有超过一半(51.1%)的研究使用随机采样方法选择训练样本,也有部分文献通过制定特定采样规则的系统性采样方法减少随机采样带来的不平衡。只有少数研究(5.2%)使用了平衡采样方法,这可能是因为缺乏对语义分割图像样本的有效平衡采样方法。在迁移方法方面,只有7.9%的文献使用了迁移方法进行制图,而27.0%的文献直接在新区域使用训练好的模型,这表明迁移方法仍是一个需要深入研究的领域。在分类类别方面,二分类的研究比多分类稍微常见一些,且分类类别和样本数量之间没有明显的相关性。
图3 meta分析统计结果
案例分析结果表明,提出的平衡采样方法相比于随机采样,在更少训练样本数量时模型可以更早达到精度饱和点。随机采样达到模型精度饱和点所需的样本数量为3.3%,比meta分析中得到了中位数(4.2%)略低。平衡采样方法将模型所需的样本数量从3.3%降低至2.5%,使样本标注的工作量减少了约25%。尽管减少了训练样本数量,但平衡采样和随机采样得到的模型精度相近。在迁移方法方面,当本地样本数量有限时,迁移方法的模型精度要高于不迁移,因为全局样本的加入使模型能够学习识别目标的普遍特征。而在本地训练样本数量较多时,不迁移的模型精度高于迁移方法,表明在数据丰富场景下全局样本和本地样本的差异会导致信息冲突降低精度。样本迁移和模型迁移两种方法都能够将本地样本需求降低至0.5%,仅为不迁移下平衡采样方法的1/5,且样本迁移下的模型精度略高。然而极少的样本需求带来了模型精度的下降,因此只推荐在本地样本数量不足的情况下使用迁移方法。
图4 训练样本数量和分布对模型精度的影响
本研究探索了遥感语义分割制图中策略性采样的应用实践。使用最常用的随机采样方法进行制图,需要研究区大小约4%的训练样本让模型达到满意的精度。使用本研究提出的平衡采样方法,能够将模型所需的训练样本数量降低到2.5%,同时保持模型精度不变。样本迁移方法能够大大降低模型的样本需求,只需要0.5%的本地样本,然而会降低模型精度。在一般情况下建议使用平衡采样方法选择研究区2.5%的训练样本进行制图,然而在样本标注成本过高时,可以使用迁移方法选择0.5%的新区域样本,尽管这会降低制图准确率。
浙江大学环境与资源学院博士研究生卢瑞为论文第一作者,浙江大学环境与资源学院叶粟研究员为通讯作者,其他作者包括哈尔滨工业大学孟冉教授、河南省农科院郭燕研究员、浙江大学环境与资源学院史舟教授等。此项研究受国家重点研发计划项目(2023YFD1900100,2022YFB3903503)以及国家自然科学基金(U24A20575)资助。