Classification of seismic events based on CL-MobileViT network

JiaYing SUN; Gang LI; Ling ZHANG; JunZhuo MA; ChaoFan WEI

doi:10.6038/pg2024HH0592

Progress in Geophysics >

2024 , Vol. 39 >Issue 6: 2153 - 2164

DOI: https://doi.org/10.6038/pg2024HH0592

Classification of seismic events based on CL-MobileViT network

JiaYing SUN ,
Gang LI ^,* ,
Ling ZHANG ,
JunZhuo MA ,
ChaoFan WEI

Expand

School of Software, Taiyuan University of Technology, Jinzhong 030600, China

Received date: 2024-03-04

Online published: 2025-01-14

Copyright

Fold

Abstract

The accurate classification of seismic signals is the key link in constructing seismic catalog, which is of great significance for seismic catalog cleaning, earthquake monitoring and alerting, and seismological research. Aiming at the existing seismic event classification algorithms with low accuracy and large computational overhead, this paper designs a deep learning network CL-MobileViT for automatic classification of seismic events. CL-MobileViT comprehensively considers the performance and efficiency of the algorithm, selects MobileViT as the main body of the network, adds the attention mechanism to improve the sensitivity of the network to effective features, and uses the idea of large kernel convolution decomposition to reduce the computing overhead of the network. At the same time, the AdamW optimization strategy is adopted to guarantee that the final model can maximize the performance of the network. Specifically, first of all, add Coordinate Attention in the skip connection of MobileViT block, so that the network can pay fine attention to the information of different locations, strengthen the interaction modeling between long-distance seismic phase features, and improve the classification accuracy; Secondly, the traditional convolution used in the local feature extraction part of MobileViT block is replaced by multiple small-size convolution kernels decomposed by a large kernel convolution, which improves the nonlinear fitting ability of the network while reducing the computation and parameter number, thus improving the accuracy of seismic event classification. Finally, AdamW optimizer is used to prevent network from being overfitted and improve the training effect. By comparison with 11 existing mainstream deep learning classification models, it is found that CL-MobileViT can reach 97.3% accuracy in recognizing three seismic events, namely natural earthquake, collapse and blasting, which is superior to the comparison methods. Moreover, the number of parameters of CL-MobileViT is only 1.19 M, which is far lower than the comparison methods. It is proved that the method in this paper has better ability of seismic event classification.

Key words： Seismic classification; Transformer; Coordinate attention; Large kernel convolution decomposition; AdamW; Time-frequency map

Cite this article

JiaYing SUN , Gang LI , Ling ZHANG , JunZhuo MA , ChaoFan WEI . Classification of seismic events based on CL-MobileViT network[J]. Progress in Geophysics, 2024 , 39(6) : 2153 -2164 . DOI: 10.6038/pg2024HH0592

0 引言

地震分为天然地震和非天然地震两大类，非天然地震包括矿震、核试验、水库地震以及人工爆破等人类活动所引起的地面震动，如2020年12月15日陕西榆林市榆阳区发生2.6级矿震和2023年2月11日广东河源发生4.3级水库地震等.天然地震与非天然地震的区分一直依赖于人工方法，但人工方法效率慢、主观性强且需要分析人员具备一定的水平和经验.此外，由于近年来地震仪的大量部署，地震台网所采集到的数据量也不断增加，传统依赖人工的方式已展现出明显的局限性，无法满足现代地震研究与应急响应对于数据处理速度、精度及全面性的高标准要求.因此，如何实现天然地震与非天然地震的自动化识别逐渐成为当前的研究热点.

近年来，机器学习被广泛应用到地震领域的研究当中，在地震事件类型区分方面显示出了较好的应用前景(杨旭等, 2021).任涛等(2019)使用Bagging机器学习算法，采用决策树为基分类器，实现对天然地震与非天然地震的实时判定，并进一步将非天然地震具体细分为爆破、塌陷、滑坡等.Zhong和Li(2020)采用小波包对采样信号进行去噪，使用遗传学习算法对支持向量机模型进行改进，实验结果表明该算法实现了较快的训练速度.施佳朋等(2021)使用信息熵分量作为特征，运用群粒子优化算法和支持向量机构建出PSO-SVM模型来对天然地震和人工爆破进行有效分类.王维欢等(2022)提出使用复杂度和S/P振幅比来分类，采用无监督、有监督到半监督分类方法来区分天然地震和矿震.曹子龙和黄杜若(2022)采用XGBoost算法，挖掘重现地震波的时域和频域特征，对工程场地实测和人工模拟地震波二者的判别准确率能达到91%.

尽管机器学习方法在一定程度上实现了地震数据分析流程的自动化，改善了人工分类耗时长、效率低等缺点，但其仍存在识别精度不高、特征提取不充分等问题.深度学习方法在诸多领域取得了突破性进展，能够通过提取数据中的高级特征并自动学习特征之间的相互关系，可以更好地处理地震数据的多维性和复杂性.Ku等(2021)提出了一种基于注意力的卷积神经网络架构，注意力机制可以使特征图更具鉴别性，从而使模型更专注于重要的特征，不仅可以精确判别地震的发生，还能对地震的具体类型实现准确分类.黎炳君等(2021)将经过傅里叶变换的时频图统一缩放为32×32像素大小的灰度图作为卷积神经网络的输入，与传统的支持向量机和多层感知机相比，其准确率大幅提升，与梅尔倒谱系数作为输入的卷积神经网络相比，其信噪比则更低，并提升了1.5%的准确率.Kim等(2021)比较了地震波形的各种二维表示形式，并利用全局平均池化和跳跃连接设计了一个基于迁移学习和卷积神经网络的多特征融合模型，对地震事件进行分类.张帆等(2021)将地震信号经过傅里叶变换，转换为时频域的对数振幅谱，使用三个卷积层的卷积神经网络来有效提取地震信号的能量分布特征，在地震事件分类任务上展现出了较好的效果.周少辉等(2021a)采用AlexNet、VGG16、VGG19、GoogleNet四种主流的卷积神经网络进行训练，每个网络的准确率均高于93%, 进一步验证了深度学习技术可以很好地应用在地震事件识别中.Zhang等(2022)通过改进ConvNetQuake，学习基于MLP的最大振幅信息，与原始ConvNetQuake主干模型相比，精度提高了1.4%.

上述基于卷积神经网络的地震分类方法虽然取得了一定的效果，但不同地震信号存在的长程依赖关系各不相同，传统的卷积神经网络主要聚焦于局部特征捕捉，对于全局信息的建模能力有限，限制了其对地震信号分类准确率的进一步提升.Transformer(Vaswani et al., 2017)是基于自注意力机制的模型，能够更加有效地处理长距离依赖和全局上下文特征信息，但Transformer网络的计算成本高，会导致实时分析和处理效能受限.因此本文设计了一种结合Transformer与卷积神经网络的地震信号分类网络CL-MobileViT，本文主要贡献可概括为以下几个方面：

(1) 构建地震信号时频图数据集，将地震信号分类问题转化为图像分类问题，充分利用深度学习方法自动学习并捕捉图像特征之间的复杂关系.

(2) 在MobileViT block的跳跃连接中采用Coordinate Attention，通过对不同位置的特征进行加权融合，使网络关注到重要的特征区域，抑制无关的背景信息，从而提高分类的准确率.

(3) 将大核卷积分解的思想运用在MobileViT block中的局部特征提取部分，通过将一个大卷积核分解成多个小尺寸的卷积核，获取在同一层次下更大范围的感受野，从而捕捉到不同尺度的特征信息，并大大减少参数数量和计算复杂度.

(4) 使用AdamW优化器，有效减少网络的过拟合风险，并加快网络收敛速度，提高训练效率.

1 数据

1.1 数据选取

本文的原始数据取自山西地震台网近10年所记录到的天然地震、塌陷、爆破三种地震事件.由于天然地震发生频次远高于塌陷和爆破，为平衡数据集，去除了台站记录的低信噪比(SNR < 2)天然地震事件，仅选用高质量的记录.最终建立的数据集均为山西省内发生的地震，震中距范围在15~200 km，所有事件的标签由山西省地震局的专业标注人员人工标定，共包含1320个地震事件，其中天然地震事件、塌陷事件和爆破事件各440个.所采集的每个地震事件均包含垂直分量(Z)、南北分量(N)和东西分量(E)三个分量，共有3960条分量记录.

1.2 数据预处理

本研究所使用的原始数据存储在SAC格式的文件中，采样率均为100 Hz，统一截取为60 s，使用Obspy(李晓锐等，2020)框架进行读取.时频图是一种同时展示信号在时间和频率两维度上的能量分布状况，其横轴表示时间，纵轴表示频率，颜色或亮度则表示信号的强度或功率，相比波形图而言时频图能够更加全面地展示信号在时间和频率上的变化情况，故将原始的地震信号转换为时频图来进行分类.最终得到与地震信号对应的时频图共3960张，按照8:2的比例划分成训练集与测试集，即3168张用于训练，792张用于测试.

天然地震、塌陷、爆破的原始波形和时频图在特征上存在差异，如图 1所示，主要区别表现在：

显示原图|下载原图ZIP|生成PPT

图1 (a) 天然地震的波形图和时频图；(b)塌陷的波形图和时频图；(c)爆破的波形图和时频图

Fig 1 (a) Waveform and time-frequency diagrams of natural earthquake; (b) Waveform and time-frequency diagrams of collapse; (c) Waveform and time-frequency diagrams of blasting

(1) 天然地震：天然地震的震源深，频率成分较为丰富，其能量缓减慢且持续时间较长(高家乙等，2020).在时频图上，天然地震通常表现为分散的能量分布，具有“多峰”.

(2) 塌陷：塌陷地震是指由于岩层崩塌陷落而形成的非天然地震事件，持续时间比天然地震短(周少辉等，2021b).时频图上，能量更倾向于集中在较低频率，产生的振动信号以低频成分为主.

(3) 爆破：爆破地震是炸药或弹药在地表或近地表爆炸产生的应力波，由于人工爆破产生的应力波幅度相对受限，爆破地震通常表现为较低的震级，其破坏力也相对有限(徐志双等，2021).时频图上，爆破的能量分布更为集中，表现出相对较窄的频率分布.

2 方法

传统卷积神经网络通常采用扩大感受野等方法来对全局信息进行建模，但会增加过拟合的风险.使用Transformer网络自带的自注意力机制可以更好地整合全局信息，但会带来相当大的计算成本.因此，为了解决普通卷积网络对于全局信息的建模能力较弱和Transformer计算成本过大的问题，本文选择将卷积神经网络与Transformer相结合的MobileViT为基础网络，在加强全局信息特征捕获的同时减小网络规模和计算复杂度.

2.1 MobileViT

MobileViT(Mehta and Rastegari, 2022)是一种基于卷积神经网络与Transformer的轻量级视觉模型，能够在保持较高性能的同时降低参数量和计算复杂度.MobileViT主要由普通卷积、MobiletNetV2中的Inverted Residual block、MobileViT block、全局池化以及全连接组成.其具体结构如图 2所示.

显示原图|下载原图ZIP|生成PPT

图2 MobileViT的结构

Fig 2 Structure of MobileViT

其中，MV2与MobileViT block是整个MobileViT最重要的组成部分.MV2是指MobiletNetV2中的Inverted Residual block.倒残差结构是先利用1×1卷积升维，再经过3×3的深度可分离卷积，最后使用1×1卷积降维，其中当stride=1且输入特征矩阵与输出特征矩阵的维度相同时才能够使用跳跃连接.MobileViT block是MobileViT最大的创新点，主要由三个部分组成，首先进入Local representations部分提取局部特征，接着传到Global representations部分进行全局特征建模，最后通过Fusion部分融合特征得到最终的输出.

2.2 CL-MobileViT网络

本文基于MobileViT提出了CL-MobileViT网络，主要在MobileViT block模块进行改进. MobileViT block是整个网络中最核心的部分，其原理如下：首先，将输入的特征图在Local representations部分通过一个卷积核大小为n×n的卷积层进行局部的特征建模，这一步骤旨在对每个位置周围的局部信息进行提取，以捕获图像中的细粒度特征，再通过一个卷积核大小为1×1的卷积层调整通道数.其次，在Global representations部分通过Unfold、Transformer、Fold进行全局的特征建模，以捕获全局特征和建立特征之间的关联，并通过一个卷积核大小为1×1的卷积层将通道数调整回原始大小.最后，在Fusion部分使用跳跃连接与原始输入特征图进行concat拼接，通过一个卷积核大小为3×3的卷积层进行特征融合，得到最终的输出.

改进后的MobileViT block结构如图 3所示.在跳跃连接中添加Coordinate Attention注意力机制，帮助网络关注各个位置的坐标信息.而引入Coordinate Attention会导致网络的参数量和计算量有所增加，为保持MobileViT低参数量和低计算量的特点，本文利用大核卷积分解的思想，将local representations部分的普通卷积替换为大核卷积分解出的深度可分离卷积、带有扩张率的深度可分离卷积以及逐点卷积，在提高准确率的同时降低网络的参数量和计算量，并使用AdamW优化算法来训练网络以提高网络的训练效果和收敛速度.

显示原图|下载原图ZIP|生成PPT

图3 改进的MobileViT block结构

Fig 3 Improved MobileViT block structure

2.2.1 Coordinate Attention

原有的MobileViT block中仅在全局特征提取处使用了自注意力机制，并直接使用跳跃连接与输入特征图进行拼接，缺少对位置信息的关注度.因此，本文在跳跃连接中添加了Coordinate Attention(Hou et al., 2021)，利用坐标信息来计算关注不同位置的重要性，可以更好地捕获特征之间的空间关系，加强长距离特征之间的交互建模，针对性地选择重要的特征，从而减少信息在跳跃连接过程中的丢失.Coordinate Attention的结构如图 4所示.

显示原图|下载原图ZIP|生成PPT

图4 Coordinate Attention结构

Fig 4 Structure of Coordinate Attention

(1) 坐标信息嵌入

为了避免普通的二维全局池化造成的位置信息丢失，Coordinate Attention对两个一维特征进行编码. 对于给定的输入X，使用维度为(H, 1)和(1, W)的两个池化核分别沿水平和垂直方向进行编码，高度为h的第c个通道的输出如公式(1)所示：

$z_c^h(h)=\frac{1}{W} \sum\limits_{0 \leqslant i<W} x_c(h, i), $

类似的宽度为w的第c个通道的输出如公式(2)所示：

$z_c^w(w)=\frac{1}{H_0} \sum\limits_{0 \leqslant j<H} x_c(j, w), $

式中的h和w是当前注意力模块相对应的输入特征图的高度和宽度，H和W是池化核的大小.

(2) 坐标注意力生成

将在两个方向上生成的特征图进行拼接，然后通过1×1卷积变换函数F₁得到最终的特征图f.具体公式如式(3)所示：

$f=\delta\left(F_1\left(\left[z^h, z^w\right]\right)\right), $

式中[ ·，· ]表示沿空间维度的拼接操作，δ为非线性激活函数.

$f \in R^{C / r \times(H+W)}$

为水平方向和垂直方向对空间信息进行编码的中间特征映射，r为缩减率，用于降低模型的复杂度.批量归一化后的特征图通过非线性处理，然后沿着空间维度把f分成两个张量：

$f^h \in R^{C / r \times H}$

和

$f^w \in R^{C / r \times W} $

.再利用两个1×1卷积F_h和F_w，分别将f^h和f^w变换为与输入X具有相同通道数的张量g^h和g^w，具体过程如公式(4)、公式(5)所示：

$g^h=\sigma\left(F_h\left(f^h\right)\right), $

$g^w=\sigma\left(F_w\left(f^w\right)\right), $

式中σ是Sigmoid激活函数，然后将输出的g^h和g^w分别扩展并作为注意力权重.

(3) 坐标注意力输出

最后的坐标注意力块y的输出如公式(6)所示：

$y_c(i, j)=x_c(i, j) \times g_c^h(i) \times g_c^w(j), $

在跳跃连接中加入Coordinate Attention，不仅可以捕获跨通道信息，还可以捕获方向感知和位置感知信息，帮助网络更准确地识别和定位感兴趣的位置，从而提高网络的准确率.

2.2.2 大核卷积分解

MobileViT block中采用传统的3×3卷积来提取局部特征，但其较小的感受野限制了卷积神经网络的性能，使用大核卷积虽然可以扩大感受野，增强提取特征的能力，但同时会带来巨大的计算量和参数量，还容易引起过拟合.为了克服上述的各种不足，本文采用Guo等(2023)提出的大核卷积分解来替换MobileViT block中的Local representations部分，其具体结构如图 5所示.其中DWConv代表深度可分离卷积，DW-D-Conv表示附带扩张率的深度可分离卷积，PWConv为1×1的点卷积.

显示原图|下载原图ZIP|生成PPT

图5 大核卷积分解

Fig 5 Large kernel convolution decomposition

其主要思想是将大核卷积分解成三个部分：空间局部卷积(深度卷积)、空间远程卷积(深度扩张卷积)和通道卷积(1×1卷积).具体而言，一个K×K的普通卷积被分解成一个(2d-1)×(2d-1)的深度可分离卷积和一个扩张率为d的

$\lceil K / d\rceil \times\lceil K / d\rceil$

的深度扩张可分离卷积以及一个1×1的逐点卷积.通常忽略计算偏置时，一个输入输出图像的特征尺寸都为H×W，卷积核大小为K×K的标准卷积的参数量与计算量分别如公式(7)和公式(8)所示：

$P=K \times K \times C_i \times C_{\circ}, $

$F=K \times K \times C_i \times C_{\mathrm{o}} \times H \times W, $

把大核卷积进行分解之后的参数量和计算量分别为公式(9)和公式(10)所示：

$P=\left\lceil\frac{K}{d}\right\rceil^2 \times C_i+(2 d-1)^2 \times C_i+C_i \times C_{\mathrm{o}}, $

$\begin{aligned}F= & \left(\left\lceil\frac{K}{d}\right\rceil^2 \times C_i+(2 d-1)^2 \times C_i+C_i \times C_{\mathrm{o}}\right) \times \\& H \times W，\end{aligned}$

其中，d表示膨胀速率，C_i和C_o分别为图像的输入与输出通道数.本文将一个36×36的大核卷积分解成一个7×7的深度可分离卷积、一个扩张率为4的9×9深度扩张可分离卷积和一个1×1的逐点卷积. 通过公式(9)和公式(10)可以看出，通过将卷积进行分解当扩张率越大时其参数量和计算量减少的越多.大核卷积分解的使用可以有效降低参数量和计算量，改善引入Coordinate Attention后参数量和计算量有所增加的情况.

2.2.3 AdamW优化算法

优化器在深度学习中起到了至关重要的作用，它的最终目标是找到最小化损失函数的最优参数，通过不断迭代参数更新来寻找这个最优解，使得模型在给定数据集上能够取得最佳性能.优化器主要有两大类：使用自适应算法的Adam优化器和使用Momentum的SGD.SGD每次更新参数时只使用一个样本或一小批样本的梯度，因此计算速度较快，内存占用较小，但容易陷入局部最优解，收敛速度相对较慢，可能需要更多的迭代次数才能达到最优解.Adam是一种自适应学习率优化算法，能够根据每个参数的梯度动态地调整学习率，然而由于自适应调整学习率的特性，可能会对某些数据集或网络架构过度拟合，导致性能下降.

为了改善Adam过度拟合的缺陷，Loshchilov和Hutter(2019)提出了AdamW优化器.AdamW通过修正的权重衰减策略来解决传统Adam优化器中权重衰减与学习率之间的耦合问题.它通过在参数更新过程中独立地施加权重衰减项，并将其与学习率调整分离，实现了更准确的权重衰减效果.本文选择采用AdamW优化器来进行训练可以有效控制模型复杂度，减少过拟合风险，同时提高模型的鲁棒性.其原理的公式如下：

$m_t=\beta_1 m_{t-1}+\left(1-\beta_1\right) g_t$

$v_t=\beta_2 v_{t-1}+\left(1-\beta_2\right) g_t^2, $

$\hat{m}_t=\frac{m_t}{1-\beta_1^t}, $

$\hat{v}_t=\frac{v_t}{1-\beta_2^t}$

$\theta_{t+1}=\theta_t-\eta\left(\frac{\hat{m}_t}{\sqrt{\hat{v}_t}+\varepsilon}+w \theta_t\right), $

其中，β₁与β₂是指数衰减常数，m_t与v_t分别是一阶动量和二阶动量，w是衰减因子，η是学习速率，g_t是参数的梯度，θ_t是需要学习的模型参数.

3 实验

3.1 实验环境

本文实验搭载操作系统为ubuntu18.04，内存32GB，GPU处理器为GeForce RTX 2080Ti，显存11G，本文所提出的网络及各对比网络均采用Pytorch1.7框架进行实验.为保证实验结果的严谨性，本研究使用统一的超参数进行网络的训练，网络训练期间使用的具体超参数见表 1.

表1 网络训练超参数

Table 1 Network training hyperparameters

参数	值
Loss function	Cross-Entropy
Epochs	150
Batch size	16
Learning rate	0.0002
Optimizer	Adamw
Input size	256×256

3.2 实验评价指标

本文使用使用分类准确率(Accuracy)、精度(Precision)、召回率(Recall)和F1分数(F1 Score)4个评价指标来对网络进行综合评估.Accuracy表示分类器正确预测的样本占总样本数的比例；Precision是指分类器预测为正例的样本中真正为正例的比例；Recall是指分类器正确预测为正例的样本占实际正例样本数的比例；F1 Score综合考虑了精确率和召回率，是精确率和召回率的调和平均值.其中，Accuracy计算使用的是全部样本，而Precision和Recall则是针对每个类进行单独计算，评价指标的具体公式如下：

$\text { Accuracy }=\frac{T P+T N}{T P+T N+F P+F N}, $

$\text { Precision }=\frac{T P}{T P+F P}, $

$\text { Recall }=\frac{T P}{T P+F N}, $

$\text { F1 score }=2 \times \frac{\text { Recall } \times \text { Accuracy }}{\text { Recall }+ \text { Accuracy }}, $

其中TP表示真正例，即分类器将正例正确分类为正例的数量；FP表示假正例，即分类器将负例错误分类为正例的数量；TN表示真反例，即分类器将负例正确分类为负例的数量；FN表示假反例，即分类器将正例错误分类为负例的数量.

3.3 三种地震事件分类

由表 2可知天然地震、塌陷和爆破在本文所提出的CL-MobileViT网络上的分类准确率、精度、召回率和F1分数.CL-MobileViT达到了97.3%的总体准确率、97.4%的平均精度、97.3%的平均召回率和97.2%的平均F1分数，分别对比三种地震的精度、召回率和F1分数，可以得出网络对于塌陷的分类效果最好，其精度、召回率和F1分数这三个指标均高于爆破和天然地震.图 6为CL-MobileViT训练150次的测试集准确率图和训练集损失图，随着训练次数的不断增加，网络的测试集准确率在不断上升，最终达到97.3%.训练集损失在不断下降，并趋于平稳，最终维持在0.13左右.实验结果证明CL-MobileViT网络可以有效对地震事件进行分类.

表2 三种地震事件的分类结果

Table 2 Classification results for three types of seismic events

地震类型	精度/%	召回率/%	F1分数/%	准确率/%
天然地震(o1)	97.6	94.7	96.2	97.3
塌陷(o2)	100	99.6	99.3
爆破(o3)	94.5	97.7	96.1
平均	97.4	97.3	97.2

显示原图|下载原图ZIP|生成PPT

图6 CL-MobileViT网络训练结果

Fig 6 CL-MobileViT network training results

3.4 优化器实验

为了分析优化器选择对网络性能的影响，本文在网络结构不变动的情况下进行了优化器选择实验，实验结果如表 3所示.AdamW的准确率比Adam和SGD都要高，达到97.3%.损失则是AdamW最小，SGD次之，Adam最大.综合考量三种优化器的效果，选择了AdamW作为整个网络的优化器，能够在快速收敛的同时获取更高的精度.

表3 SGD、Adam、AdamW优化器训练结果

Table 3 Training results of SGD, Adam, and AdamW optimizers

优化器类型	准确率/%	损失
SGD	94.1	0.315
Adam	95.9	0.351
AdamW	97.3	0.132

3.5 对比试验

为了验证本文所提方法的性能优势，本次研究对比了多个网络，其中包括传统的卷积网络AlexNet(Krizhevsky et al., 2017)、GoogleNet(Szegedy et al., 2015)和ResNet(He et al., 2016)，轻量级网络MobileNet(Howard et al., 2017)、ShuffleNet(Zhang et al., 2018)、EfficientNet(Tan and Le, 2019)、RegNetY(Radosavovic et al., 2020)，密集连接网络DenseNet(Huang et al., 2017)以及Transformer网络Vision Transformer(Dosovitskiy et al., 2021)、DeiT(Touvron et al., 2021)、CMT(Guo et al., 2022).对比试验结果如表 4所示.从网络的性能来看，传统的卷积网络AlexNet、GoogleNet和ResNet的准确率分别为73.1%、64.5%和96.2%, ResNet虽然有较高的准确率，但是在参数量和计算量方面表现较差，且训练效率低下.轻量级网络的计算量和参数量也比其他网络都要小很多，准确率也有所提高，MobileNet、ShuffleNet、EfficientNet都在80%以上，RegNetY则达到了96.5%, 此外轻量级网络的损失最低，其中ShuffleNet降低到了0.004.与RegNetY相比，虽然DenseNet的准确率略高一些，但其网络复杂度比轻量级网络要高.Transformer网络Vision Transformer、DeiT、CMT的准确率基本都在80% ~90%, 但是Vision Transformer的网络复杂度是所有网络中最高的，其参数量和计算量分别高达86.57 M和16860 MMac.而本文所提出的CL-MobileViT参数量仅有1.19 M，是所有网络中最小的，计算量为312.98 MMac，仅次于ShuffleNet和AlexNet.并且本文方法的准确率最高达到了97.3%, 损失降低至0.132远低于Transformer网络.综上所述，本文对MobileViT进行改进提出了CL-MobileViT网络，实现了识别精度与识别速度的权衡，能够有效地进行地震事件分类.

表4 不同网络分类结果对比

Table 4 Comparison of classification results of different networks

网络	准确率/%	损失	参数量/M	计算量/MMac
AlexNet	73.1	0.362	16.63	312.11
GoogleNet	64.5	0.454	13.38	2080
ResNet	96.2	0.085	21.8	3680
MobileNet	80.4	0.118	3.50	320.3
ShuffleNet	83.6	0.004	2.28	150.6
EfficientNet	89.1	0.083	5.2	399.36
RegNetY	96.5	0.089	5.16	507.93
DenseNet	96.7	0.126	7.98	2880
Vision Transformer	82.7	0.553	86.57	16860
DeiT	84.7	0.532	5.72	1080
CMT	91.0	0.342	9.71	1240
CL-MobileViT	97.3	0.132	1.19	312.98

为进一步得到CL-MobileViT网络与其他网络对3种地震事件识别的情况，12种网络在测试集上对3种地震事件分类准确率的混淆矩阵如图 7所示.训练集与测试集按比例划分成8:2，共792张用于测试，其中3种地震各264张.天然地震和塌陷的在时频图上的特征较为明显，除AlexNet和GoogleNet之外，其余所有网络正确识别均超过200张.但11种对比网络对于爆破的识别普遍较差，只有本文所提的CL-MobileViT对于爆破的正确识别超过250张，有效的验证了CL-MobileViT网络能够高效的提取捕获时频图中的特征信息，对地震事件进行有效识别.

显示原图|下载原图ZIP|生成PPT

图7 12种网络分类结果的混淆矩阵

Fig 7 Confusion matrix for the classification results of the 12 networks

3.6 消融实验结果

为了综合分析Coordinate Attention、大核卷积分解以及AdamW对网络的有效性，本文在相同的实验环境和已经预处理好的数据集上进行了一系列的消融实验，以准确率、参数量和计算量为评价指标，具体的实验结果如表 5所示.

表5 改进模块的消融实验

Table 5 Ablation experiments with improved modules

基础网络	因素			准确率/%	计算量/MMac	参数量/M
基础网络	Coordinate Attention	大核卷积分解	AdamW	准确率/%	计算量/MMac	参数量/M
MobileViT	—	—	√	96.21	337.81	1.27
	√	—	√	97.22	338.06	1.28
	—	√	√	96.71	312.73	1.18
	√	√	√	97.34	312.98	1.19

对表 5分析可得：以使用AdamW优化器的MobileViT为基础网络，其准确率达到了96.21%, 参数量和计算量分别为337.81 MMac和1.27 M.在此基础上将Coordinate Attention注意力机制添加到MobileViT block的跳跃连接中，不仅可以捕获跨通道信息，同时还捕获了方向感知和位置感知信息，较原始的MobileViT准确率提升了1.01%, 但其计算量和参数量分别增加了0.25 MMac和0.01 M.在基础网络上引入大核卷积分解的思想，将局部特征提取所使用的3×3卷积替换成一个深度卷积、一个深度扩张卷积和一个1×1卷积，准确率提升了0.50%, 且计算量和参数量分别减少了25.08 MMac和0.09 M.本文方法同时将Coordinate Attention注意力机制和大核卷积分解的思想应用于基础网络MobileViT中，并采用AdamW作为优化器，最后分类的准确率相比原始的基础网络提升了1.13%, 而且计算量减少了24.83 MMac，参数量减少了0.08 M.综上所述，本文所提出的方法在地震事件分类中表现优秀，能够在准确分类的同时减少网络的参数量和计算量，以提升网络的训练速度和整体的效率.

4 结论

针对传统的卷积神经网络在识别过程中存在的全局特征提取不充分、参数量大等方面的问题，本文结合Transformer与卷积神经网络在图像处理领域中的优势，平衡网络的精度与计算开销，提出了CL-MobileViT并将其应用于地震事件分类任务.具体而言，将地震信号转换成时频图，并构建了相应的时频图数据集，使用基于Transformer和卷积神经网络相结合的MobileViT作为基础网络.为提高分类准确率，对其中的MobileViT block进行改进，在跳跃连接中添加Coordinate Attention关注空间位置信息的同时减少有效信息的丢失；为解决引入Coordinate Attention机制所带来的计算量和参数量增加问题，在局部特征提取处采用了大核卷积分解的思想，以进一步提高准确率并减少计算量和参数量；为减少过拟合风险，采用AdamW优化器加快网络训练的收敛速度.与传统的卷积网络和Transformer网络相比，本文所提出的网络不仅计算成本更低，而且实现了更高的准确率，分类准确率达97.3%, 具有更好的综合效果.

本研究下一步将收集更多的地震事件样本，加入噪声和岩爆等类别的数据，对数据集样本进行扩增，同时进一步探索网络设计参数，以维持高精度的同时缩减网络规模，提高效率.

感谢审稿专家提出的修改意见和编辑部的大力支持！

References

Publishing order | Descend order by publishing year | Descend order by cited within

Cao

Z L

, Huang

D R

. Time-frequency characteristic analyses of measured and artificial seismic waves using the XGBoost algorithm. Journal of Tsinghua University (Science and Technology). 2022, 62(8 1330 1340

模态框（Modal）标题

Abstract

Cite this article

0 引言

1 数据

1.1 数据选取

1.2 数据预处理

图1 (a) 天然地震的波形图和时频图；(b)塌陷的波形图和时频图；(c)爆破的波形图和时频图

2 方法

2.1 MobileViT

图2 MobileViT的结构

2.2 CL-MobileViT网络

图3 改进的MobileViT block结构

2.2.1 Coordinate Attention

图4 Coordinate Attention结构

2.2.2 大核卷积分解

图5 大核卷积分解

2.2.3 AdamW优化算法

3 实验

3.1 实验环境

表1 网络训练超参数

3.2 实验评价指标

3.3 三种地震事件分类

表2 三种地震事件的分类结果

图6 CL-MobileViT网络训练结果

3.4 优化器实验

表3 SGD、Adam、AdamW优化器训练结果

3.5 对比试验

表4 不同网络分类结果对比

图7 12种网络分类结果的混淆矩阵

3.6 消融实验结果

表5 改进模块的消融实验

4 结论

References