Few-shot pre-stack AVO inversion using a multi-task Transformer

LiuQing YANG; ShouDong WANG; JingMing LI

doi:10.6038/pg2025HH0544

Progress in Geophysics >

2025 , Vol. 40 >Issue 2: 743 - 757

DOI: https://doi.org/10.6038/pg2025HH0544

Few-shot pre-stack AVO inversion using a multi-task Transformer

LiuQing YANG ^,¹^,² ,
ShouDong WANG ^,¹^,²^,* ,
JingMing LI ¹^,²

Expand

¹ State Key Laboratory of Petroleum Resources and Prospecting, China University of Petroleum (Beijing), Beijing 102249, China
² National Engineering Laboratory of Offshore Oil Exploration, China University of Petroleum (Beijing), Beijing 102249, China

Received date: 2024-04-22

Online published: 2025-05-09

Copyright

Fold

Abstract

Pre-stack AVO inversion is one of the key methods for reservoir characterization, from which abundant elastic parameters in underground media can be obtained, which is conducive to the identification of oil and gas reservoirs. The inverse problem of pre-stack angular track set recording to elastic parameters is challenging in terms of adaptability and resolution. To solve these problems, a pre-stack AVO inversion network based on Transformer framework is proposed in this paper to solve the velocity and density of P-S wave. Inversion results are unstable and transverse continuity is poor in the network that uses pre-stack seismic data as one-way input. Therefore, prior knowledge constraints are introduced in training to improve the stability and accuracy of inversion results. In order to reduce the dependence on well data inversion, this paper uses transfer learning strategy to transfer the trained model to the real data inversion. In the data preprocessing stage, the data augmentation method is used to expand the training samples, so that the proposed network can fully extract the pre-stack trace set information, and establish the complex nonlinear mapping relationship between the pre-stack trace set and the elastic parameters. In this paper, the method of multi-task learning is used to realize simultaneous inversion of P-wave velocity, S-wave velocity and density, so as to improve the inversion accuracy and calculation efficiency. Through inversion testing of Marmousi2 synthetic data and actual data, and comparing with classical deep learning frameworks, the multi-task Transformer framework proposed in this paper has higher accuracy and high-resolution inversion results.

Key words： Pre-stack AVO inversion; Multi-task learning; Deep learning; Transformer

Cite this article

LiuQing YANG , ShouDong WANG , JingMing LI . Few-shot pre-stack AVO inversion using a multi-task Transformer[J]. Progress in Geophysics, 2025 , 40(2) : 743 -757 . DOI: 10.6038/pg2025HH0544

0 引言

叠前AVO反演是油藏表征的关键方法之一，利用反演得到的弹性参数(例如纵波速度、横波速度和密度)可以帮助油气储层的识别.从叠前角道集记录到弹性参数的过程可以看做是一个反问题求解，这种反问题由于数据带宽的限制和干扰噪声等因素通常存在多解性和不稳定等问题(Grana et al., 2013).传统的叠前AVO反演依赖物理模型的建立，例如Zoeppritz方程和其近似式Aki-Richards等(Aki and Richards, 1980).Buland等(2003)在贝叶斯理论的基础上实现了由叠前道集到纵波速度、横波速度和密度的AVO线性反演.Wang等(2009)采用广义线性算法并构建了一个基于精确Zoepprtiz方程的目标函数来求解叠前地震数据到弹性参数的反问题，同时预测出纵波速度、横波速度和密度.周捷等(2021)提出一种以精确Zoeppritz方程为基础的叠前AVO反演方法，并在实际工区中进行了三参数反演测试.Wang等(2023)提出了一种梯度结构相似性方法来计算叠前与叠后反演结果的结构相似性，进而提高弹性参数的预测精度.由于叠前道集数据与弹性参数具有复杂的高度非线性关系，入射角较大时线性化的以物理驱动为基础的模型会导致反演精度降低.从线性近似到非线性关系的建立均是为了更好的表征叠前地震数据与弹性参数之间的关系.为了提升计算效率与反演精度，研究人员开发出减少对物理模型依赖的数据驱动反演方法(Wang等，2021).

深度学习技术由于其出色的高阶特征表征与非线性映射能力受到了地震勘探学者的广泛研究.在地震勘探领域中，深度学习技术已用于储层参数预测(杨柳青等，2019)、断层识别(张政等，2020)、地震噪声衰减(张鑫等，2024)和层位解释(朱振宇等，2023)中.深度学习技术在地震反演中，通过从输入数据提取抽象特征并建立特征信息与弹性参数的非线性映射关系.当前已开发出基于卷积神经网络(Convolutional Neural Network, CNN)，循环神经网络(Recurrent Neural Network, RNN)和生成对抗神经网络(Generative Adversarial Network, GAN)的叠前AVO反演算法.Biswas等(2019)提出在模型中引入Aki-Richards近似式来构建一个物理模型引导的卷积神经网络来提高弹性参数反演的精度，该方法缓解了叠前地震反演缺乏标定标签的问题.Zhang等(2019)采用基于监督学习的卷积神经网络从叠前地震记录中预测出速度和密度剖面.Zheng等(2019)提出一个结合了门控循环单元网络和残差卷积网络的混合网络来反演纵波速度、横波速度和密度.Aleardi和Salusti(2021)使用方差函数采样来扩充训练样本，该方法利用从井资料中计算的弹性参数的先验分布实现.然后采用具有不同噪声的合成数据训练网络来缓解由实际数据中噪声导致的反演不确定性.Sun等(2023)搭建了一个模型和数据驱动的生成对抗网络来训练含噪叠前地震记录到弹性参数的映射关系，并引入低频约束来提高网络的反演精度.对抗神经网络相对于具有相同结构的全卷积神经网络而言具有更好的精度，然而由于需要训练的损失函数较多，其计算效率通常成倍增长.当前，叠前AVO反演模型大多建立在卷积神经网络的基础上.近年来在计算机视觉和自然语言处理领域中，Transformer模型(Han et al., 2023)由于其出色的计算效率、并行计算和全局特征表征能力受到广泛研究.Transformer共分为编码和解码器两部分，其中编码由层归一化(Layer Normalization, LN)、多层感知机、位置编码层和多头自注意力模块构成.为了提升训练效率与缓解网络层级加深时的过拟合问题，这里采用残差连接的方式来传递特征信息.

为了提高叠前AVO反演的精确度和自适应性，本文基于Tranformer模型搭建了一个多任务弹性参数反演框架，称为InvTransformer.该框架由一维卷积层和Transformer的主体构成，采用编码-解码的结构来建立叠前角道集数据与弹性参数之间的非线性映射关系.首先，该框架的编码器部分由卷积层和Transformer构成，用于捕捉输入地震叠前道集的重要特征.在输入网络前我们采用小尺度一维分割方法将道集记录切分为大量一维信号，这样有助于促进特征提取的充分性，同时扩充了训练样本.然后，我们在编码与解码器中的连接部分加入低频先验数据来约束网络，进而提升弹性参数的反演精度.本文采用Marmousi2合成地震记录检测网络的反演表现，其中训练样本仅使用1%的数据制作.相比已有的叠前AVO反演框架(Zhang et al., 2021)，本文提出的方法有以下几点优势：

(1) InvTransformer反演方法的编码器用于表征不同角度中叠前道集数据的特征，该特征表征有助于提高解码阶段弹性参数反演中的精度.

(2) 数据预处理阶段使用小尺度一维分割方法扩充训练样本，通过重复提取同一时窗的特征信息提高反演剖面的横向连续性.

(3) 反演弹性参数时使用多任务协同学习策略，提高弹性参数反演的计算效率与反演精度.

由于实际地震数据中井资料较少，本文采用迁移学习策略将由合成数据预训练得到的权重和模型迁移至实际数据中进行微调来减少对井资料的依赖.实验结果表明，在少量训练样本的预训练下，本文提出的方法的反演结果相比经典的深度学习算法有更高的分辨率与更好的横向连续性.

1 理论基础

自适应反演网络的搭建是为了高效率且准确的提取叠前道集的特征信息，在先验信息的约束下反演出纵波速度、横波速度和密度.本文采用多任务联合学习的方式同时反演出目标弹性参数.本文搭建的网络的初步输入为叠前角道集记录，使用由一维卷积层和Transformer块组成的编码器来提取波形特征.图 1展示了本文搭建的InvTransformer叠前AVO反演框架，主要由编码卷积块，Transformer块和编码卷积块组成.

显示原图|下载原图ZIP|生成PPT

图1 多任务叠前AVO反演InvTransformer框架结构

Fig 1 The structure of multi-task pre-stack AVO inversion InvTransformer framework

1.1 引入先验模型约束的反演流程

叠前反演是根据由物理观测系统给定的数据反求解出弹性参数的过程，其正演建模过程为：

(1)

$\begin{equation*}\boldsymbol{d}=\boldsymbol{G}(m)+\boldsymbol{n}, \end{equation*}$

其中d表示叠前角道集记录，G表示正演模型，n表示添加在叠前地震数据中的噪声分量.对于叠前反演反射系数与纵波速度、横波速度和密度的关系式使用精确Zoeppritz公式表达.

对于以数据驱动的深度学习叠前地震数据反演，估算得到的弹性参数$\tilde{m}$是从观测数据d中得到的.这是一个监督学习中拟合弹性参数标签m与网络输出$\tilde{m}$，并建立m与观测数据d的复杂非线性映射关系的过程，其过程可以表达为：

(2)

$\begin{equation*}l=\left\|m-F_{\mathtt{θ}}(\boldsymbol{d})\right\|_{2}^{2}, \end{equation*}$

其中F_θ(d)表示由网络建立的叠前角道集记录反演得到的弹性参数，F_θ表示训练得到带有最佳参数(权重矩阵和偏置向量)的模型.训练中的仅输入叠前角道集数据时增加了网络反演的不稳定性.基于数据驱动的模型的反问题求解中，为了减少弹性参数反演的不适定性并增加反演稳定性，我们加入低频先验模型来约束网络.引入先验约束m₀的网络可以表示为：

(3)

$\begin{equation*}l_{c}=\left\|m-F_{\mathtt{θ}}\left(\boldsymbol{d}, m_{0}\right)\right\|_{2}^{2}, \end{equation*}$

其中低频先验模型m₀由井数据插值得到，先验模型的引入有助于提升反演精度与稳定性.

1.2 叠前AVO反演网络结构

本文提出的叠前AVO反演神经网络InvTransformer主要包含两个结构，即编码和解码结构.编码结构主要用于提取输入地震角道集的重要特征.InvTransformer的输入为单道输入，以合成数据为例，随机抽取多个单道数据输入网络中.在编码阶段的初步特征提取中，我们采用一维卷积层和非线性激活函数来实现，如图 1中的线框A.经过卷积层后添加非线性激活函数将其输出转为非线性，这里使用高斯误差线性单元(Gaussian Error Linear Unit, GeLU)激活函数(Lee, 2023).GeLU激活函数的表达为：

(4)

$\operatorname{GeLU}(h)=\frac{1}{2}(h)\left(1+\tanh \left[\sqrt{\frac{2}{\mathsf{π}}}\left(h+0.044715 h^{3}\right)\right]\right),$

其中tanh表示双曲正切函数，h表示经过一维卷积层后的输出.GeLU激活函数具有更光滑的导数，从而有助于缓解迭代过程中的过拟合问题.在本文中我们采用三个编码卷积块，其中卷积核的数量分为为12、25和50，卷积核的尺寸为3.

输入角道集经过编码卷积块后，提取到的特征信息被规则切分并输入到位置编码层进行定位.位置编码层对切分的特征信息嵌入位置信息，从而在后续自注意力机制中通过嵌入的位置信息计算注意力权重.接下来，被编码的分割后的特征信息输入到Transformer中来进一步提取重要信息并进行多头注意力关注，Transformer块的具体结构如图 1中的线框B所示.带有位置编码的信息输入到层归一化中进行归一化处理，然后采用多头注意力机制对不同位置信息的特征信息进行特征提取，其中每个多头注意力(Multi-Head Attention, MA)机制(Li et al., 2023)包含三个自注意力(Self Attention, SA)模块，自注意力模块之间为串联模式, 可以表示为：

(5)

$\begin{equation*}M A(P)=\left[S A_{1}(P) ; S A_{2}(P) ; S A_{3}(P) ; S A_{4}(P)\right] . \end{equation*}$

在每个SA中，输入的特征信息通过线性变换被映射到三个不同的向量空间中，即查询向量Q，键向量K和值向量V.三个向量空间分别可以表示为：

(6)

$\begin{equation*}\boldsymbol{Q}(P)=\boldsymbol{W}_{\mathrm{Q}} P, \boldsymbol{K}(P)=\boldsymbol{W}_{\mathrm{K}} P, \boldsymbol{V}(P)=\boldsymbol{W}_{\mathrm{V}} P, \end{equation*}$

其中W_Q、W_K和W_V分别表示对应的权重矩阵.自注意力机制的关注权重通过查询向量Q和键向量K点积等计算得到，最终自注意力机制的输出可以表示为：

(7)

$\begin{equation*}S A(P)=\operatorname{Softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{g}}\right) \boldsymbol{V}, \end{equation*}$

其中g表示查询向量Q和键向量K的维度，Softmax函数的输出表示对特征期望的置信度.

特征信息经过多头注意力机制后，引入随机深度dropout(Dixon et al., 2019)正则化项减缓网络过拟合问题.在Transformer块中，多层感知机被用来提取全局特征，其中每个多层感知机中包含两个带有GeLU非线性激活函数的全连接层和两个常规dropout层.最后，在多层感知机后添加一个层归一化层作为Transformer块的输出层.本文搭建的InvTransformer反演网络是一个端到端的多任务学习框架，同时反演出纵波速度、横波速度和密度剖面.在解码阶段，本文采用带有残差连接结构的解码卷积块进一步提取特征信息，该特征信息是在低频先验模型的约束下进行的.在解码阶段前，我们加入低频先验模型来约束网络.解码卷积块的结构如图 1中的线框C所示，解码卷积块包含三个编码卷积块和一个常规dropout层.在每条解码分支的最后添加一个卷积核数量为1的一维卷积层和一个ReLU激活函数层来输出不同弹性参数反演结果.

本文提出的叠前AVO反演方法在解码阶段通过构建三个弹性参数反演分支实现三参数的同时反演.相比依次单独反演弹性参数，多任务同时反演具有以下几点优势：(1)更高的反演效率，单次训练后即可同时反演出纵波速度、横波速度和密度；(2)更优的泛化能力，多个解码器之间共享学习到的信息并得到更具泛化的特征表示；(3)正则化约束能力，通过同时迭代更新多个损失函数的梯度来约束网络，增加了网络在叠前AVO反演过程的鲁棒性.此外，本文提出的反演方法使用小样本学习策略，通过对有限的标签数据进行训练，从少量样本数据中学习到潜在的数据特征和结构.

1.3 网络损失函数与训练策略

本文题出的InvTransformer包含两部分输入，分别为叠前角道集记录和低频先验模型.训练完成的网络可同时反演目标弹性参数，并且多任务学习分支之间共享信息，这有助于提升模型的泛化能力.为了更好的减少训练过程中的过拟合问题和提升梯度下降稳定性，我们使用AdamW优化器(Zhao et al., 2019)并添加惩罚项来计算梯度和调整学习率.本文搭建了三个编码分支来分别输出相应的反演后的弹性参数.对于每个反演分支的损失函数，我们结合了基于l₂范数的均方误差函数(Mean-Square Error, MSE)、改进的相关系数损失(Improved Pearson Correlation Coefficient, IPCC)函数和总变分(Total Variation, TV)正则化项.相关系数损失函数可以表示为:

(8)

$\begin{equation*}\operatorname{IPCC}(y, \hat{y})=\frac{\sum\limits_{i=1}^{M}\left(y_{i}-\operatorname{mean}(y)\right)\left(\hat{y}_{i}-\operatorname{mean}(\hat{y})\right)}{\sum\limits_{i=1}^{M}\left(y_{i}-\operatorname{mean}(y)\right)^{2} \sum\limits_{i=1}^{M}\left(\hat{y}_{i}-\operatorname{mean}(\hat{y})\right)^{2}+\varepsilon} ,\end{equation*}$

其中y和$\hat{y}$分别表示弹性参数标签值和预测值，mean(y)和mean($\hat{y}$)分别表示y和$\hat{y}$对应的平均值，ε表示一个极小常数.loss_vp为：

(9)

$\begin{align*}\operatorname{loss}_{\mathrm{vp}}= & \mathit{γ}_{1} \arg \min _{\theta} \sum\limits_{i=1}^{M}\left\|y_{i}-\hat{y}_{i}\right\|_{2}^{2}+ \\& \mathit{γ}_{2}\left(1-\operatorname{IPCC}(y, \hat{y})^{2}\right)+\mathit{γ}_{3}\|\nabla(\hat{y})\| ,\end{align*}$

其中γ₁、γ₂和γ₃分别表示三个函数的权重.本文的γ₁、γ₂和γ₃通过控制变量法进行实验，最终确定最佳三个函数的最佳权重分别为0.94、0.01和0.05.

多任务学习的总损失函数为三个不同子任务的损失的合，总损失函数可以表示为：

(10)

$\begin{equation*}\operatorname{loss}_{\mathrm{total}}=\omega_{1} \operatorname{loss}_{\mathrm{vp}}+\omega_{2} \operatorname{loss}_{\mathrm{vs}}+\omega_{3} \operatorname{loss}_{\mathrm{den}} ,\end{equation*}$

其中ω₁、ω₂和ω₃分别表示纵波速度，横波速度和密度损失函数的权重值.地下储层的物理性质容易引起密度的变化，密度相比纵横波速度对于地震数据的敏感性较低，因此准确的密度反演相比纵波速度和横波速度反演更加困难.本文中ω₁、ω₂和ω₃通过实验测试，其权重分别设置为1、1和1.4.

为了在训练过程中更好的平衡多任务叠前反演中各弹性参数反演的损失下降权重，我们采用动态加权平均算法(Liu et al., 2019).该算法通过计算迭代过程中验证集损失的变化来自适应的调节各解码分支中损失函数的权重.验证集损失下降快的任务，其损失函数的权重以0.1的密度向下递减调节.解码阶段的每条分支包含四个解码卷积块，其中一维卷积层中的卷积核数量从上到下分别为50、25、12和1.本文采用四个Transformer块，每个Transformer块中的多层感知机中包含两个全连接层，其神经元数量分别为2×d和d.这里的d表示数据切分与编码层中数据的切分长度，本文的切分长度设置为50.网络训练过程中设置了200次迭代，批量大小(batch size)为68.本文提出的叠前AVO反演的具体实施步骤如下所示：

(1) 使用小尺度一维分割方法分割叠前道集数据和标签数据，根据分割尺寸和滑动尺寸将样本分割为小尺度一维数据.

(2) 将分割后的训练集输入搭建的网络中进行迭代，构建叠前角道集与弹性参数之间的非线性映射关系，并在解码器后加入低频先验模型.

(3) 使用训练有素的模型反演纵波速度、横波速度和密度剖面，计算反演结果的评价指标，与对比方法进行对比并分析反演结果精度与弹性参数剖面的质量.

影响叠前弹性参数反演质量的主要因素通常分为两个方面，即网络的超参数和数据的质量.本文提出的反演网络经过控制变量法逐一对超参数进行调节，根据验证集的损失变化对比确定最佳超参数.在基于深度学习方法的叠前地震反演中，通常训练集的样本数量越多，其反演精度越高.同时，叠前道集中的噪声会直接影响弹性参数的反演精度.在后续实验中，本文通过开展抗噪性测试分析噪声对于反演表现的影响.

2 数值测试

2.1 数据预处理及反演精度指标

本文搭建的叠前反演框架使用叠前角道集作为输入，并在网络的中间层输入低频先验模型来约束网络.在实际应用中由于井资料难以大量获得，本文采用一种小尺度一维分割方法技术(Saad et al., 2022)来扩充训练样本，分割流程如图 2所示.InvTransformer的输入为多个单道记录，小尺度一维分割方法通过设置分割和滑动尺寸将一维数据分割为多个小尺度一维数据.在预测阶段，我们按照分割和滑动尺寸将反演结果重构为原始尺寸.相比直接输入单道记录，小尺度一维分割方法有助于提升反演结果的横向连续性与反演精度.本文所有实验使用端到端的Tensorflow平台，GPU采用显存为11 GB的GeoForce RTX 2080 Ti.

显示原图|下载原图ZIP|生成PPT

图2 小尺度一维数据分割流程

Fig 2 Small-scale 1D data segmentation process

为了评估不同方法的反演结果，本文采用均方根误差(Root-Mean-Square Error, RMSE)和相关系数(Pearson Correlation Coefficient, PCC)来衡量反演精度，如下所示:

(11)

$\begin{gather*}\operatorname{RMSE}(y, \hat{y})=\sqrt{\frac{1}{M} \sum\limits_{i=1}^{M}\left(y_{i}-\hat{y}_{i}\right)^{2}}, \end{gather*}$

(12)

$R(y, \hat{y})=\frac{\sum\limits_{i=1}^{M}\left(y_{i}-\operatorname{mean}(y)\right)\left(\hat{y}_{i}-\operatorname{mean}(\hat{y})\right)}{\sum\limits_{i=1}^{M}\left(y_{i}-\operatorname{mean}(y)\right)^{2} \sum\limits_{i=1}^{M}\left(\hat{y}_{i}-\operatorname{mean}(\hat{y})\right)^{2}} .$

在Marmousi2合成叠前反演中为了测试网络的抗噪性，我们在叠前角道集中加入不同水平的噪声，其信噪比评价公式表示为:

(13)

$\begin{equation*}\mathrm{SNR}=20 \log _{10} \frac{\|y\|_{2}^{2}}{\left\|y-y_{\text {noise }}\right\|_{2}^{2}}, \end{equation*}$

其中y_noise表示添加了噪声的叠前角道集.在叠前角道集和低频先验模型输入到网络前，为了统一数据的量纲，本文采用MaxAbsScale(Pedregosa et al., 2011)的方式对输入数据进行标准化处理.

2.2 合成叠前资料反演

本文提出一种自适应的多任务叠前AVO反演框架来反演弹性参数，首先使用Marmousi2合成地震数据进行实验.我们使用主频为40 Hz的雷克子波与反射系数进行褶积，得到一个叠前角道集记录.其中反射系数由纵波速度、横波速度和密度通过精确Zoeppritz方法计算得到.合成叠前记录共包含三个角道集，其角度由5°到25°且角度间隔为10°.合成的叠前角道集记录的时间采样间隔为1 ms，1200个采样点和3400道，最终的合成记录的维度为1200×3400×3.本文提出的InvTransformer为小样本训练框架，采用小尺度一维分割方法将随机选取的占总道数的1%的数据进行分割并作为训练样本.数据分割时采用的分割尺寸和滑动尺寸为100和5，最终随机选取的34道尺寸为1200的样本被分割为7616个尺寸为100的小尺度样本作为训练集来拟合网络.图 3展示了Marmousi2模型合成叠前角道集记录.为了提高网络的反演精度，我们5 Hz的低通滤波器生成低频先验模型，如图 4所示.

显示原图|下载原图ZIP|生成PPT

图3 Marmousi2模型合成叠前角道集记录

(a)5°；(b)15°；(c)25°；(d)三个角度的角道集展示.

Fig 3 Synthetic angle gathers of Marmousi2 model

(a)5°; (b)15°; (c)25°; (d) The wiggle display of three angle gathers.

显示原图|下载原图ZIP|生成PPT

图4 初始先验模型

(a) 纵波速度；(b) 横波速度；(c) 密度.

Fig 4 Initial prior model

(a) P-wave velocity; (b) S-wave velocity; (c) Density.

为了验证本文提出的反演方法的有效性，我们选取Meng等(2022)提出的基于卷积神经网络的反演框架(CNN-based Inversion Network, CINet)作为对比方法.此外，我们将没有低频先验约束模型的InvTransformer作为对比方法，即只输入叠前角道集记录(InvTransformer-seismic).所有对比方法与本文提出的网络具有相同的训练数据和训练策略.首先采用无噪的Marmousi2合成记录进行实验，我们采用1%的样本作为训练集.三种方法的纵波速度、横波速度和密度的反演结果如图 5所示.图 5展示了第700道的角道集和不同方法的反演结果.图中黑色、蓝色、粉红色、绿色和红色线条分别表示真实值、初始先验值、CINet、不含低频先验模型的InvTransformer(InvTransformer-seismic)和InvTransformer.对比三种方法，本文提出的方法(红色线条)在纵波速度、横波速度和密度的反演结果上最接近各弹性参数的实际值(黑色线条).尤其在蓝色线框中，可以看到CINet和InvTransformer-seismic的反演值出现明显的偏差.从实际情况来说，叠前地震资料对纵波速度和横波速度的敏感性要高于密度，即准确的密度反演难度大.表 1展示了三种方法在无噪Marmousi2合成叠前数据中的评价指标对比，本文选用相关系数R和均方根误差RMSE作为评价指标.与两个对比方法相比，本文提出的InvTransformer的相关系数R最接近1，表示其三个弹性参数的反演结果与真实值具有最佳的相似度，其纵波速度、横波速度和密度的R分别为0.9974、0.9974和0.9858.此外，InvTransformer的RMSE相比两个对比方法最小，分别为60.8379、47.3763和0.0304.均方根误差RMSE越小则表示反演结果与真实值的误差越小.

显示原图|下载原图ZIP|生成PPT

图5 三个网络在合成数据中的反演结果(第700道)对比

(a) 第700道的角道集展示；(b) 纵波速度；(c) 横波速度；(d) 密度. 其中黑色、蓝色、粉红色、绿色和红色线条分别表示真实值、初始先验值、CINet、不含先验模型的InvTransformer和InvTransformer.

Fig 5 The comparison results of the three networks in the synthetic data (trace 700)

(a) The wiggle display of three angle gathers at trace 700; (b) P-wave velocity; (c) S-wave velocity; (d) Density. The black, blue, pink, green and red lines represent the true value, the initial prior value, CINet, InvTransformer without initial prior value, and InvTransformer respectively.

表1 不同网络在Marmoisi2合成数据中的反演结果(无噪合成数据)

Table 1 Inversion results of different networks in Marmoisi2 synthetic data (noise-free synthesis data)

		V_P/(m/s)	V_S/(m/s)	ρ/(g/cm³)
CINet	R	0.9901	0.9937	0.9323
CINet	RMSE	113.15848	72.8784	0.0585
InvTransformer-seimic	R	0.9844	0.9846	0.9442
InvTransformer-seimic	RMSE	156.3122	121.4257	0.0587
InvTransformer	R	0.9974	0.9974	0.9858
InvTransformer	RMSE	60.8379	47.3763	0.0304

为了符合实际叠前反演的情况，我们在叠前角道集数据中添加随机噪声进行测试.含噪合成数据的网络参数设置与无噪叠前反演一致，首先使用SNR为10 dB的含噪Marmousi2数据进行测试.图 6为三个网络在迭代过程中的验证集MSE损失，其中训练与验证集的比例为4：1.图 6a—c分别表示纵波速度、横波速度和密度的验证集损失下降曲线.从不同弹性参数的损失迭变化可以看出本文提出的InvTransformer网络具有最低的损失.为了直观的对比不同方法的反演结果，我们绘制的各弹性参数的反演剖面.图 7展示了三个网络的纵波速度、横波速度和密度反演结果.从三种方法的反演结果来看，CINet的反演结果中存在大量噪声，分辨率相比本文提出的InvTransformer较低.InvTransformer-seismic由于缺少低频先验约束，其反演结果的分辨率低且地质结构细节难以清晰的识别.反观本文提出的InvTransformer，三参数的反演结果具有良好的横向连续性且分辨率较高.表 2示了三种方法在SNR为10 dB的Marmousi2合成数据中的评价指标对比.与表 1相比，InvTransformer的R略微下降，表明本文提出的网络具有良好的抗噪性能.为了进一步分析InvTransformer在叠前反演中的抗噪性，我们使用SNR为5 dB的合成数据进行实验.图 8展示了第1800道的角道集和不同方法的反演结果.从图 8a中可以看到角道集记录中存在大量噪声.从反演结果来看，InvTransformer在三个弹性参数的反演曲线(红色)最接近实际值(黑色).表 3展示了三种方法在SNR为5 dB的Marmousi2合成数据中的评价指标对比，从中可以看到纵波和横波速度的相关系数R依然保持在0.99以上.从定性和定量的综合表现来看，本文提出的叠前反演网络具有良好的抗噪性能和反演分辨率.从训练效率来看，CINet、InvTransformer-seismic和InvTransformer的训练时间分别为0.27 h、0.25 h和0.24 h.

显示原图|下载原图ZIP|生成PPT

图6 不同网络训练过程中的验证集损失变化

(a) 纵波速度；(b) 纵波横波；(c) 密度.

Fig 6 Validation loss changes in different network training processes

(a) P-wave velocity; (b) S-wave velocity; (c) Density.

显示原图|下载原图ZIP|生成PPT

图7 三个网络在SNR=10 dB的合成数据中的反演结果对比

(a) 纵波速度；(b) 横波速度；(c) 密度.每个子图从左到右分别为CINet、不含先验模型的InvTransformer和InvTransformer.

Fig 7 The inversion results of the three networks in the synthetic data with SNR=10 dB

(a) P-wave velocity; (b) S-wave velocity; (c) Density. Each subfigure is CINet, InvTransformer without prior model and InvTransformer from left to right.

表2 不同网络在Marmoisi2合成数据中的反演结果(SNR=10 dB)

Table 2 Inversion results of different networks in Marmoisi2 synthesis data (SNR=10 dB)

		V_P/(m/s)	V_S/(m/s)	ρ/(g/cm³)
CINet	R	0.9888	0.9883	0.9386
CINet	RMSE	124.6051	102.1162	0.0556
InvTransformer-seimic	R	0.9218	0.9201	0.8697
InvTransformer-seimic	RMSE	357.9108	280.2331	0.0836
InvTransformer	R	0.9956	0.9949	0.9789
InvTransformer	RMSE	81.1322	67.3704	0.0409

显示原图|下载原图ZIP|生成PPT

图8 三个网络在SNR=5 dB的合成数据中的反演结果(第1800道)对比

(a)第1800道的角道集展示；(b)纵波速度；(c)横波速度；(d)密度.其中黑色、蓝色、粉红色、绿色和红色线条分别表示真实值、初始先验值、CINet、不含先验模型的InvTransformer和InvTransformer.

Fig 8 The comparison results of the three networks in the synthetic data with SNR=5 dB(trace 1800)

(a) The wiggle display of three angle gathers at trace 1800; (b) P-wave velocity; (c) S-wave velocity; (d) Density. The black, blue, pink, green and red lines represent the true value, the initial prior value, CINet, InvTransformer without initial prior value, and InvTransformer respectively.

表3 不同网络在Marmoisi2合成数据中的反演结果(SNR=5 dB)

Table 3 Inversion results of different networks in Marmoisi2 synthesis data (SNR=5 dB)

		V_P/(m/s)	V_S/(m/s)	ρ/(g/cm³)
CINet	R	0.9860	0.98464	0.9257
CINet	RMSE	140.2366	116.1876	0.05870
InvTransformer-seimic	R	0.8862	0.8843	0.8311
InvTransformer-seimic	RMSE	419.3198	325.9141	0.0933
InvTransformer	R	0.9934	0.9926	0.9693
InvTransformer	RMSE	98.1886	81.339	0.0417

2.3 实际叠前资料反演

为了验证本文提出的叠前反演方法的有效性，我们采用实际资料进行测试.该实际资料有1044道和200个采样点，其中的时间采样间隔为2 ms.部分角度叠加的剖面如8所示，该数据包含7口井，分别在第20道、100道、160道、400道、440道、586道和840道.我们采用迁移学习的策略来微调网络以适应对实际资料的叠前弹性参数反演.由合成数据预训练得到的网络被迁移至实际资料的微调中，我们采用6口井(图 9a中黑色空心三角)作为样本来训练网络，剩余的第440道井资料(图 9a中黑色实心三角)作为盲井来检测不同方法的反演精度.从实际资料中可以看到角度叠加数据存在噪声和横向不连续问题.图 10展示了实际资料中纵波速度、横波速度和密度的低频先验模型，低频先验模型由结构约束的井插值方法和10 Hz的低通滤波生成.

显示原图|下载原图ZIP|生成PPT

图9 实际叠前角道集叠加记录

(a) 0°~10°的倾角叠加；(b) 10°~20°的倾角叠加；(c)20°~30°的倾角叠加.

Fig 9 Field stacked angle gathers

(a) Angle stacks of 0°~10°; (b) Angle stacks of 10°~20°; (c) Angle stacks of 20°~30°.

显示原图|下载原图ZIP|生成PPT

图10 初始先验模型

(a) 纵波速度；(b) 横波速度；(c) 密度.

Fig 10 Initial prior model

(a) P-wave velocity; (b) S-wave velocity; (c) Density.

三个网络的纵波速度、横波速度和密度反演结果如图 11所示.三个方法都采用相同的迁移与数据分割策略以保证其公平的对比.图 11中每个子图从左到右分别为CINet、不含先验模型的InvTransformer和InvTransformer的反演结果.我们根据层位信息截取图 11a展示了三个方法的纵波速度反演剖面，相比InvTransformer-seismic、InvTransformer和CINet的纵波速度反演剖面的横向连续性较差且速度层反演不准确.本文提出的InvTransformer反演的纵波速更加干净且准确，其中紫色线框表示盲井的真实值.图 11b、c展示了三种方法的横波速度和密度反演剖面.与两个对比方法相比，本文提出的方法的横向连续性更好且分辨率更高，如图中箭头所示.CINet在横向断层方面的连续性较差，且反演的密度剖面与其余两个网络的差异最大.图 12展示三个网络在盲井中的反演结果，其中黑色、蓝色、粉红色、绿色和红色线条分别表示真实值、初始先验值、CINet、不含低频先验模型的InvTransformer(InvTransformer-seismic)和InvTransformer.对比三种方法，本文提出的方法(红色线条)在纵波速度、横波速度和密度的反演结果上最接近盲井中各弹性参数的实际值(黑色线条).表 4展示了三种方法在盲井中的反演精度.综合纵波速度、横波速度和密度的反演均方根误差和相关系数来看，本文提出的网络具有最稳定和最佳的反演结果.从训练效率来看，CINet、InvTransformer-seismic和InvTransformer的训练时间分别为71 s、72 s和102 s.CINet和本文提出的InvTransformer反演方法均在反演过程中加入了低频先验模型来提高反演精度.从反演得到的弹性参数剖面中，InvTransformer相比不含低频先验模型的InvTransformer-seismic具有更高的分辨率和横向连续性.

显示原图|下载原图ZIP|生成PPT

图11 三个网络在实际数据中的反演结果对比

(a) 纵波速度；(b) 横波速度；(c) 密度. 每个子图从左到右分别为CINet、不含先验模型的InvTransformer和InvTransformer.

Fig 11 The inversion results of the three networks in the field data

(a) P-wave velocity; (b) S-wave velocity; (c) Density. Each subfigure is CINet, InvTransformer without prior model and InvTransformer from left to right.

显示原图|下载原图ZIP|生成PPT

图12 三个网络在实际资料中的反演结果的盲井对比

(a) 纵波速度；(b) 横波速度；(c) 密度.

Fig 12 The comparison results of the three networks in the blind well of field data

(a) P-wave velocity; (b) S-wave velocity; (c) Density.

表4 不同网络在实际资料中盲井的反演精度对比

Table 4 Comparison of inversion accuracy of different networks in real data of the blind well

		V_P/(m/s)	V_S/(m/s)	ρ/(g/cm³)
CINet	R	0.9028	0.8954	0.3211
CINet	RMSE	659.4684	371.0393	0.1925
InvTransformer-seimic	R	0.8860	0.9258	0.5305
InvTransformer-seimic	RMSE	632.1838	206.2297	0.0959
InvTransformer	R	0.8957	0.9455	0.8087
InvTransformer	RMSE	607.222	180.5329	0.0667

3 结论

本文针提出了一种小样本和迁移学习策略的多任务Transformer叠前AVO反演框架，该网络仅使用少量样本来训练网络即可达到高精度的弹性参数反演.我们采用小尺度一维分割方法技术来切分数据，相比直接输入单道记录，该方法有助于提升反演结果的横向连续性与反演精度.本文搭建的InvTransformer采用多任务联合学习策略来同时反演纵波速度、横波速度和密度，不同任务的联合训练有助于提高叠前反演效率.为了在训练过程中更好的平衡多任务叠前反演中各弹性参数反演的损失下降权重，采用动态加权平均算法来自适应的分配各任务之间的权重.在每个任务的训练中，均方差损失函数、相关系数损失函数和总变分正则化项的联合使得网络进一步提高弹性参数的反演精度.在网络的解码阶段引入低频先验模型来约束网络，从而使得网络可以更好的表征数据.通过与基于CNN和不含先验模型的网络进行对比，本文提出的方法在Marmousi2合成数据和实际资料中的反演结果验证了其良好的反演表现.通过在含噪数据测试，本文提出的方法具有良好的抗噪性.实际资料的弹性参数反演剖面展示了InvTransformer具有良好的反演横向连续性和分辨率.

感谢审稿专家提出的修改意见和编辑部的大力支持！

References

Publishing order | Descend order by publishing year | Descend order by cited within

Aki K, Richards P. 1980. Quantitative Seismology. San Francisco: W. H. Freeman.

Aleardi

, Salusti

. Elastic prestack seismic inversion through discrete cosine transform reparameterization and convolutional neural networks. Geophysics, 2021, 86 (1): R129- R146.

模态框（Modal）标题

Abstract

Cite this article

0 引言

1 理论基础

图1 多任务叠前AVO反演InvTransformer框架结构

1.1 引入先验模型约束的反演流程

1.2 叠前AVO反演网络结构

1.3 网络损失函数与训练策略

2 数值测试

2.1 数据预处理及反演精度指标

图2 小尺度一维数据分割流程

2.2 合成叠前资料反演

图3 Marmousi2模型合成叠前角道集记录

图4 初始先验模型

图5 三个网络在合成数据中的反演结果(第700道)对比

表1 不同网络在Marmoisi2合成数据中的反演结果(无噪合成数据)

图6 不同网络训练过程中的验证集损失变化

图7 三个网络在SNR=10 dB的合成数据中的反演结果对比

表2 不同网络在Marmoisi2合成数据中的反演结果(SNR=10 dB)

图8 三个网络在SNR=5 dB的合成数据中的反演结果(第1800道)对比

表3 不同网络在Marmoisi2合成数据中的反演结果(SNR=5 dB)

2.3 实际叠前资料反演

图9 实际叠前角道集叠加记录

图10 初始先验模型

图11 三个网络在实际数据中的反演结果对比

图12 三个网络在实际资料中的反演结果的盲井对比

表4 不同网络在实际资料中盲井的反演精度对比

3 结论

References