地球大数据的爆炸式增长推动着地球系统科学向数据密集型范式(Data-intensive paradigm)转变,并为破译和解析复杂的地球系统奠定了基础。如何从海量、多源、异构、泛在的地球大数据中汲取所需的信息和知识,实现数据-信息-知识-决策链条的贯通,亟需更加行之有效的解决方案。
近日,中国科学院青藏高原研究所研究员李新、冯敏与专项首席、可持续发展大数据国际研究中心郭华东,联合西北生态环境资源研究院研究员冉有华、博士苏阳、副研究员刘丰、研究员黄春林,武汉大学教授沈焕锋,空天信息创新研究院研究员肖青,以及三极观测与大数据研究团队博士苏建宾和原世伟,在《自然综述:地球与环境》(Nature Reviews Earth & Environment)上,以Big Data in Earth System Science and Progress Towards a Digital Twin为题,系统地总结了大数据在地球系统科学领域的进展和挑战。该论文分析了遥感、原位观测和实验分析、社会感知、模拟和再分析四类地球大数据的特征,提出了能够将自然-社会大数据纳入地球系统模型的大数据同化方法框架,探讨了通过深度学习、物理知会的机器学习、因果推断、深度强化学习解决地球系统科学中高维数、复杂性和非线性难题的关键。以上大数据分析方法弥补了传统方法在可预测性、可迁移性、可解释性和决策支持方面的不足,为推动智能化数字孪生地球(Digital Twin of Earth)建设提供了先进的解决方案(图1)。
论文提出,大数据同化(Big Data Assimilation)是融合地球大数据和地球系统模型的重要方法。大数据同化可以利用先进计算资源,实现机器学习与数据同化方法的共生集成,完成超高分辨率地球系统模型和多源地球观测(如遥感、台站、社会感知等)的相互融合,实现地球系统在洲际乃至全球时空尺度和物理意义上的一致表达,进而为数字孪生地球提供物理驱动层(图2)。
(资料图片)
同时,文章从数据密集型地球系统科学的角度,分析了四种前沿大数据分析方法——深度学习、物理知会的机器学习、因果推理和深度强化学习的具体应用场景和方案;文章提出:科学大数据分析方法将助力数据驱动新地学的发展,其中,深度学习在解决地球系统高维度、复杂的非线性问题中表现出潜力;深度学习与物理知会的机器学习和因果推理相结合,可以增强在地球系统科学研究中的可迁移性、可解释性和可预测性;深度学习与强化学习和多智能体建模相结合,则能够为解决复杂的决策问题提供有效方法(图3)。
论文提出,数字孪生地球的建设需要全面的包容性,需要深时、深地、深空的全面数据支撑。随着地球步入“人类世”时代,数字孪生地球的实现需要自然系统“硬”数据与社会系统“软”数据的无缝集成,从而捕捉自然系统和社会系统的复杂交互,而科学、开放、共享的大数据科学环境和基础设施建设则正是数字孪生地球的关键保障。实现数字孪生地球将是一个漫长而艰难的旅程,更加广泛的跨学科合作和更加开放的科学环境将有助于克服这些挑战,推动实现面向地球系统科学的人工智能工具(AI for Earth System Science)(图4)
研究工作得到中国科学院战略性先导科技专项“地球大数据科学工程”项目和国家自然科学基金的支持。
论文链接
图1.地球大数据推动数字孪生地球发展
图2.大数据同化方法与应用
图3.机器学习方法助力数字孪生地球建设
图4.地球系统科学的机遇与挑战
关键词: