每年致死超 5000 人,谷歌用 Gemini 大语言模型阅读 500 万篇新闻预测山洪

报道介绍了谷歌利用其大语言模型 Gemini 处理全球 500 万篇新闻,构建名为 Groundsource 的地理时序数据集(含约 260 万次洪水记录),并以此训练 LSTM 模型来预测山洪暴发概率。该系统已在洪水中心为 150 个国家的城市区域标注风险并向应急机构共享数据,优势在于可为缺乏观测基础设施的地区补齐“地面”验证数据;但其空间分辨率较低(约 20 平方公里)、精度不及美国国家气象局且未接入本地雷达实时降水,仍有改进空间,团队并期望将该方法推广到热浪、泥石流等短时灾害。

3 月 12 日消息,山洪暴发是全球致死率最高的气象灾害之一,每年造成超过 5000 人死亡,同时也是最难预测的灾害之一。而谷歌认为,他们以一种出人意料的方式破解了这一难题 —— 通过阅读新闻。

据IT之家了解,尽管人类已经积累了大量气象数据,但山洪暴发持续时间短且具有局部性,无法像温度甚至河流流量那样进行长期全面监测。这种数据缺口导致如今愈发强大的深度学习气象预测模型,依然无法准确预报山洪。

为解决这一问题,谷歌研究人员利用其大语言模型 Gemini,梳理了全球 500 万篇新闻报道,从中提取出 260 万次不同洪水事件的记录,并将这些报道转化为带有地理标记的时序数据,命名为“地面数据源(Groundsource)”。谷歌研究产品经理吉拉 · 洛伊克表示,这是该公司首次将语言模型用于此类工作。相关研究成果与数据集已于当地时间周四上午公开。

以 Groundsource 作为真实场景基准,研究人员训练了一个基于长短期记忆(LSTM)神经网络的模型。该模型接收全球气象预报数据,生成特定区域的山洪暴发概率。

目前,谷歌的山洪预测模型已在其洪水中心平台上,为 150 个国家的城市区域标注风险等级,并向全球应急机构共享数据。南部非洲发展共同体应急官员安东尼奥 · 何塞 · 贝莱扎与谷歌合作测试了该预测模型,他表示,这一模型帮助其所在机构更快地应对洪水。

该模型仍存在局限性:一方面,其分辨率较低,仅能识别 20 平方公里区域内的洪水风险;另一方面,精度不及美国国家气象局的洪水预警系统,部分原因是谷歌模型未纳入可实时追踪降水的本地雷达数据。

不过,该项目的核心意义之一,是专为那些无力承担昂贵气象监测基础设施、或缺乏完整气象数据记录的地区设计。

谷歌抗灾项目负责人朱丽叶 · 罗森伯格本周向记者表示:“通过整合数百万份报道,Groundsource 数据集实际上让数据分布地图变得更加均衡。它让我们能够将预测能力推广到信息匮乏的其他地区。”

罗森伯格称,团队希望这种利用大语言模型,从文字类定性信息中构建定量数据集的方法,未来可应用于其他短暂但重要的灾害预测,例如热浪和泥石流。

科技公司 Upstream Tech 首席执行官马歇尔 · 莫滕奥特,其公司曾利用类似深度学习模型为水电企业预测河流流量。他表示,谷歌的这项成果,是当前为深度学习气象预测模型构建数据体系的众多努力之一。莫滕奥特联合创立了 dynamical.org,该机构为研究人员和初创企业整理适用于机器学习的气象数据集。

“数据稀缺是地球物理学领域最棘手的难题之一。”莫滕奥特说,“一方面,地球相关数据多到过剩;但当你需要用真实情况做校验时,数据又严重不足。谷歌这种获取数据的方式极具创新性。”

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...