每年致死超 5000 人，谷歌用 Gemini 大语言模型阅读 500 万篇新闻预测山洪

报道介绍了谷歌利用其大语言模型 Gemini 处理全球 500 万篇新闻，构建名为 Groundsource 的地理时序数据集（含约 260 万次洪水记录），并以此训练 LSTM 模型来预测山洪暴发概率。该系统已在洪水中心为 150 个国家的城市区域标注风险并向应急机构共享数据，优势在于可为缺乏观测基础设施的地区补齐“地面”验证数据；但其空间分辨率较低（约 20 平方公里）、精度不及美国国家气象局且未接入本地雷达实时降水，仍有改进空间，团队并期望将该方法推广到热浪、泥石流等短时灾害。

3 月 12 日消息，山洪暴发是全球致死率最高的气象灾害之一，每年造成超过 5000 人死亡，同时也是最难预测的灾害之一。而谷歌认为，他们以一种出人意料的方式破解了这一难题 —— 通过阅读新闻。

据IT之家了解，尽管人类已经积累了大量气象数据，但山洪暴发持续时间短且具有局部性，无法像温度甚至河流流量那样进行长期全面监测。这种数据缺口导致如今愈发强大的深度学习气象预测模型，依然无法准确预报山洪。

为解决这一问题，谷歌研究人员利用其大语言模型 Gemini，梳理了全球 500 万篇新闻报道，从中提取出 260 万次不同洪水事件的记录，并将这些报道转化为带有地理标记的时序数据，命名为“地面数据源（Groundsource）”。谷歌研究产品经理吉拉 · 洛伊克表示，这是该公司首次将语言模型用于此类工作。相关研究成果与数据集已于当地时间周四上午公开。

以 Groundsource 作为真实场景基准，研究人员训练了一个基于长短期记忆（LSTM）神经网络的模型。该模型接收全球气象预报数据，生成特定区域的山洪暴发概率。

目前，谷歌的山洪预测模型已在其洪水中心平台上，为 150 个国家的城市区域标注风险等级，并向全球应急机构共享数据。南部非洲发展共同体应急官员安东尼奥 · 何塞 · 贝莱扎与谷歌合作测试了该预测模型，他表示，这一模型帮助其所在机构更快地应对洪水。

该模型仍存在局限性：一方面，其分辨率较低，仅能识别 20 平方公里区域内的洪水风险；另一方面，精度不及美国国家气象局的洪水预警系统，部分原因是谷歌模型未纳入可实时追踪降水的本地雷达数据。

不过，该项目的核心意义之一，是专为那些无力承担昂贵气象监测基础设施、或缺乏完整气象数据记录的地区设计。

谷歌抗灾项目负责人朱丽叶 · 罗森伯格本周向记者表示：“通过整合数百万份报道，Groundsource 数据集实际上让数据分布地图变得更加均衡。它让我们能够将预测能力推广到信息匮乏的其他地区。”

罗森伯格称，团队希望这种利用大语言模型，从文字类定性信息中构建定量数据集的方法，未来可应用于其他短暂但重要的灾害预测，例如热浪和泥石流。

科技公司 Upstream Tech 首席执行官马歇尔 · 莫滕奥特，其公司曾利用类似深度学习模型为水电企业预测河流流量。他表示，谷歌的这项成果，是当前为深度学习气象预测模型构建数据体系的众多努力之一。莫滕奥特联合创立了 dynamical.org，该机构为研究人员和初创企业整理适用于机器学习的气象数据集。

“数据稀缺是地球物理学领域最棘手的难题之一。”莫滕奥特说，“一方面，地球相关数据多到过剩；但当你需要用真实情况做校验时，数据又严重不足。谷歌这种获取数据的方式极具创新性。”