浙江大学农业遥感与信息技术应用研究所

研究背景与意义：

自从美国拉夫运河事件爆发以来，世界范围内污染场地事件激增，对当地生态和人居环境造成严重影响。在过去的几十年，污染场地的管理方式已从大规模修复转变为可持续风险管控。具体来说，管理者要定期监测污染场地以保证其风险在可接受范围内。目前污染场地以田间调查为主要监测手段，包括初步调查、详细调查和风险评估等，其优势是可以精准的监测污染场地。然而，这种方式不仅费时费力，而且范围有限以及信息严重滞后。以中国最新的重点行业企业用地调查为例，调查1.34万块重点地块（疑似污染地块数量为11.7万）需要超过3年时间，7000人参与和60亿投资。因此，为了监测大尺度上长时间序列的污染场地变化趋势并为政策提供信息，该研究提出了整合广泛可用的社交媒体和田间调查数据以监测污染场地（图1）。这两个数据源相辅相成，为污染场地监测提供快速、精准和全面的信息。尽管田间调查已广泛应用于污染场地监测并作出了重要贡献，但社交媒体数据很少在污染场地监测中被一起考虑。

图1 整合田间调查和社交媒体监测污染场地的框架

研究数据：

传统田间调查是获取污染场地最直接、最精准也是最基本的手段。由于历史调查资料的不断累积，我们现在比以往任何时候都了解污染场地状况。最近，微博等社交媒体平台在跨时空尺度范围内提供了更易于访问和丰富的数据源以填补数据空白。微博允许以前所未有的方式听到个人/官方的声音，允许表达相对未经请求的公众意见。广泛的研究表明，与面对面分享感受相比（例如，一些访谈和基于问卷的调查），公众更愿意通过在线平台表达他们的诚实意见。正如打开微博APP提示（即“随时随地发现新鲜事”）所表明的那样，它提供了时间和空间组合上有低成本污染场地信息，从而可以比以往更大规模地研究公众对周边环境的情绪并监测污染。微博的应用程序编程接口（https://open.weibo.com/wiki/API）用于遍历并提取历史推文，所有数据都是根据微博的服务条款和隐私条件收集的，详细的数据采集流程如下（图2）。

图2 微博数据采集流程

研究方法：

文本情感分析是使用自然语言处理和文本挖掘技术获取公众发布的推文对特定事物（例如污染场地事件）的情感取向（例如积极、中性和消极），从而量化公众情感的强度。“基于词典”、“机器学习”和“混合”的方法是三种常用的研究方法。与机器学习相比，基于词典的方法在处理大规模社交媒体数据集时是更简单、更容易实现的情感分析方法，但其效果可能会因不同语料库存在差异。此外，机器学习的性能在很大程度上依赖于训练数据集的质量，高质量的人工标记总是耗时和困难的。目前，“混合”的方法是最具潜力的。在该研究中，史舟教授团队使用百度AI开放平台的自然语言处理接口调用the enhanced representationthrough knowledge integration模型计算情感极性分类结果，它结合了基于词典和机器学习两种方法的优势。

研究结论：

在这项研究中，史舟教授团队使用微博和网络爬虫获取了2011年8月至2021年12月与污染网站相关的99,545条推文，并提出了一种基于数据清洗、情感分析、关键字统计和回归分析的污染场地监测新框架，克服了传统污染场地监测的局限性。研究结果表明，社交媒体用户的情绪在研究区普遍是负面的（图3）。2011年至2020年，研究区用户积极情绪平均值从0.29上升至0.53，2021年下降至0.39，整体情绪趋于积极。大多数省份也获得了类似的结果。值得注意的是，官方用户的积极情绪值明显高于非官方用户。在个人用户中，女性的积极情绪值明显高于男性。此外，山东的推文数量最多，占14.7%，其次是北京，占12.1%，江苏、广东、河北、河南和浙江，最后是新疆、青海和海南。具有更多（疑似）污染场地的省份通常具有更高的用户关注度和更多推文，反之亦然。企业、污染、环境、环保、生态环境等词是微博用户高度关注的词，而企业、生态环境、环保、工作、环境等词是用户比较关注的关键词（图4）。空间双变量局部莫兰指数、皮尔逊相关性和回归分析的验证结果共同表明社交媒体可以有效地用于污染场地监测。未来的研究应该在更小的尺度上使用更全面的海量社交媒体数据来精准的监测污染场地。

图3 研究区不同时期平均积极情绪值

图4 研究区不同时期用户关注的关键词