我们介绍S2Vec,这是一个自监督学习框架,能够将复杂的地理空间数据转换为通用嵌入向量,用于预测全球的社会经济和环境模式。
当我们思考人工智能和地理的关系时,往往会关注导航或从A点到B点的路径规划。然而,建筑环境——由道路、建筑物、商业设施和基础设施组成的复杂网络——包含的信息远比地图上的坐标要丰富得多。这些特征讲述着关于社会经济健康、环境模式和城市发展的故事。
直到最近,将这些多样化的地理空间特征转换为机器学习模型可以理解的格式仍然是一个手工和劳动密集型的过程。研究人员往往需要为每个新问题手工制作特定的指标。在Google Research,我们作为Google Earth AI计划的一部分开发了一种新方法来弥合这一差距,该计划使用基础模型和先进的AI推理将行星信息转化为可执行的智能。
与EarthAI愿景一致,我们最近推出了S2Vec,这是一个专门设计用于学习建筑环境通用嵌入向量(即紧凑的数值摘要)的自监督框架。S2Vec让AI能够像人类一样理解社区的特征,识别加油站、公园和住房分布的模式,并利用这些知识来预测重要的指标,从人口密度到环境影响。在我们的评估中,S2Vec在社会经济预测任务中表现出与基于图像的基准相媲美的性能,特别是在地理适应(外推)方面,同时显示在环境任务(如树木覆盖和海拔)中仍有明显的改进空间。
地理空间数据解析的挑战
地理空间数据出了名的难以处理,因为它是多模态的,规模变化极大。一个城市街区可能包含数百个数据点(建筑物、咖啡馆、公交站),而农村地区可能只有几个。标准的机器学习模型更偏好结构化、统一的数据,比如照片中的像素网格。
为了解决这一挑战,S2Vec使用两步过程来栅格化世界:
首先,将地理空间特征(如建筑物、道路、兴趣点)映射到标准化网格上。每个网格单元计算其边界内每种特征类型的数量。
然后,将这些计数转换为多通道图像,其中每个通道代表不同的特征类型(建筑物通道、道路通道等)。
这种转换允许我们像处理AI可以"看见"的数字照片一样处理建筑环境的地理数据。反过来,这种栅格化开启了计算机视觉技术的广阔而成熟的工具箱,这些技术在很大程度上已经解决了自然图像理解的问题。
掩码自编码器:教AI理解空间语言
将建筑环境转换为栅格化特征图像后,S2Vec使用掩码自编码(MAE)这种强大的自监督学习技术来分析它们。传统机器学习依赖手工制作的标签(例如,手动为收入水平或空气质量标记区域),而自监督学习消除了这一瓶颈。由于标记整个地球是不可能的任务,MAE允许我们在不需要手工制作标签的情况下获得全球洞察。
MAE过程系统性地向模型展示建筑环境的一个"补丁",同时隐藏(掩码)其中的某些部分。然后模型仅基于周围的上下文重建缺失的部分:
输出是一个通用嵌入向量:一个独特的数学简写,捕获了位置的特征。这些数字串代表了位置的特征,创建了一个基础,然后可以为一系列任务进行适应。
即使没有被告知什么是"金融区"或"郊区住宅区",模型也可以纯粹基于其特征的空间关系将它们分组在一起。
性能评估:与现有方法的比较
我们将S2Vec的地理空间性能与几种地理空间和基于图像的嵌入方法进行了比较,包括:SATCLIP、GEOCLIP、RS-MaMMUT、Hex2vec和GeoVeX。这些模型在多个地理空间回归基准上进行了评估,特别是预测社会经济指标(如美国范围内的人口密度和收入中位数),以及环境因素(包括碳排放、树木覆盖和海拔)。
通常发现S2Vec是零样本地理适应任务的最佳单个模型,例如预测美国范围内的收入中位数或未见区域的人口密度。
将S2Vec与基于图像的嵌入(多模态融合)结合通常优于使用任何单一模态。
虽然S2Vec在预测碳排放等环境因素方面具有竞争力,但结果表明仅仅"建筑环境"数据并不总是足够的。对于这些任务,S2Vec与卫星图像嵌入结合时表现最佳,后者捕获了建筑物计数可能遗漏的交通、植被和地形特征。
迈向地理空间基础智能
S2Vec代表了朝着地理基础智能迈出的重要一步。通过创建一种可扩展的、自监督的方式来表示建筑环境,我们正在摆脱利基的、手工制作的模型,转向更通用的地理空间AI形式。
这种工作的影响是广泛的。城市规划师可以使用从这些嵌入和其他类似嵌入中获得的洞察,更好地理解基础设施变化如何影响社区健康,而环境研究人员可以更准确地模拟快速发展城市的碳足迹。
教AI"阅读"我们街道和建筑的语言产生了对我们所建世界更深入的、数据驱动的理解。这与我们更广泛的Earth AI使命一致,即将行星信息转化为可执行的智能——这一目标得到了我们现有的基础模型生态系统的支持,包括人口动态基础模型(PDFM)和远程感知基础的RS-MaMMUT VLM模型。这些工具共同提供了映射和管理我们对地球影响所需的规模和精度。
Q&A
Q1:S2Vec是什么?它有什么特殊能力?
A:S2Vec是Google Research开发的自监督学习框架,能够将复杂的地理空间数据转换为通用嵌入向量。它的特殊能力是像人类一样理解社区特征,通过识别加油站、公园、住房分布的模式来预测人口密度、环境影响等重要指标。
Q2:S2Vec如何处理复杂的地理空间数据?
A:S2Vec使用两步栅格化过程:首先将地理空间特征映射到标准化网格上,计算每个网格单元内各种特征类型的数量;然后将这些计数转换为多通道图像,每个通道代表不同的特征类型,让AI能像处理数字照片一样分析地理数据。
Q3:掩码自编码在S2Vec中起什么作用?
A:掩码自编码(MAE)是S2Vec的核心学习技术,它系统性地向模型展示建筑环境的片段,同时隐藏某些部分,让模型基于周围上下文重建缺失部分。这种自监督学习方式无需手工标注就能训练模型,输出独特的数学嵌入向量来捕获位置特征。