中国地震局地球物理研究所公开发布“谛听”(DiTing)人工智能地震学训练数据集
近日,中国地震局地球物理研究所白家疃地球科学国家野外科学观测研究站(以下简称野外站)通过国家地震科学数据中心公开发布了“谛听”(DiTing)人工智能地震学训练数据集。该数据集由赵明博士团队加工制作,数据集涵盖了787,010个近震事件的2,734,748条三分量波形,以及对应的P波和S波震相到时标签,以及641,025个P波初动极性标签。
“谛听”(DiTing)人工智能地震学训练数据集使用的地震事件和台站分布如图1所示。数据集获取地址:http://doi.org/10.12080/nedc.11.ds.2022.0002。
图1 “谛听”数据集使用的地震事件和台站分布
近年来,人工智能技术在地震信号识别上展现出巨大潜力,并掀起了新一轮的研究热潮。人工智能在地震学中的发展和应用需要大量的、高质量的标签数据,野外站研究团队利用中国地震台网2013~2020年间的震相观测报告和国家测震台网数据备份中心的事件波形,经过数据清洗和脱敏处理形成了“谛听”(DiTing)数据集。“谛听”(DiTing)数据集中,地震事件的震级范围为0~7.7级,震中距范围为0~330 km,P波信噪比主要分布在 -0.05~5.31 dB内,S波信噪比主要分布在 -0.05 ~ 4.73 dB内,详见图2、图3、图4。数据集主要来源于宽频带和短周期地震仪器记录。该数据集可用于开发机器学习模型,开展地震检测、震相拾取、初动极性判别、震级预测、地震预警和强地面运动预测等数据驱动型的地震学研究提供高质量的标准数据集,为进一步推动人工智能地震学的发展及应用起到积极作用。
图2 震中距、震级、P波和S波信噪比分布图
图3 数据集的后方位角、初动极性和震级类型统计
(a)台站反方位角分布(单位:度︒);(b)P波初动极性分布图,其中“U”为向上,“D”为向下,“I”、“E”、“-”代表初动标注特征,分别为清晰、一般、未评级;(c)震级类型
图4标注波形示例