Research on pore pressure prediction method based on XGBoost

Bing ZHANG; XiaoTing WANG; FuYing XU; YuJia QIN; ZhiQian WANG

doi:10.6038/pg2025JJ0121

Progress in Geophysics >

2025 , Vol. 40 >Issue 2: 541 - 555

DOI: https://doi.org/10.6038/pg2025JJ0121

Research on pore pressure prediction method based on XGBoost

Bing ZHANG ^,¹ ,
XiaoTing WANG ^,¹^,* ,
FuYing XU ¹ ,
YuJia QIN ¹ ,
ZhiQian WANG ²

Expand

¹ Northeast Petroleum University Sanya Institute of Marine Oil and Gas Research, Sanya 572000, China
² School of Electrical and Information Engineering, Northeast Petroleum University, Daqing 163318, China

Received date: 2024-11-06

Online published: 2025-05-09

Copyright

Fold

Abstract

To address the limitations of conventional empirical formula-based pore pressure prediction methods in engineering practice, such as high dependency on velocity, numerous required empirical parameters, and significant human influence, this study proposes an intelligent pore pressure prediction model based on eXtreme Gradient Boosting (XGBoost). By incorporating the ratio of actual P-wave velocity to the normal compaction trendline as a feature parameter in model training, the prediction accuracy and generalization capability of pore pressure are significantly improved. Furthermore, an enhanced method is introduced, which replaces the normal compaction trendline with the Dv curve for pore pressure prediction, effectively mitigating the computational complexity and subjectivity associated with establishing the normal compaction trendline. The effectiveness of this improved method is also validated across other machine learning regression models. The results demonstrate that the proposed intelligent pore pressure prediction model and its enhanced method exhibit high prediction accuracy and generalization ability, providing efficient and reliable data support for drilling safety. This approach holds significant engineering application value and broad prospects for future use.

Key words： Pore pressure; Machine learning; XGBoost; Normal compaction trend; Dv curve

Cite this article

Bing ZHANG , XiaoTing WANG , FuYing XU , YuJia QIN , ZhiQian WANG . Research on pore pressure prediction method based on XGBoost[J]. Progress in Geophysics, 2025 , 40(2) : 541 -555 . DOI: 10.6038/pg2025JJ0121

0 引言

地层孔隙压力预测在油气勘探开发和钻井工程中具有重要意义.它能够有效保障钻井安全，优化钻井设计，降低事故风险；同时为油气勘探提供重要依据，指示油气富集区，助力储层评价与保护(时梦璇等，2020；幸雪松等，2024).此外，孔隙压力预测还能支持地质工程一体化，降低环境风险，是实现油气田高效开发和安全作业的关键技术.目前工程实践中常用的基于测井资料的孔隙压力预测方法主要有等效深度法、Eaton法和Bowers法等(Hottman and Johnson, 1965；Eaton，1975；Bowers，2001).其中等效深度法基于沉积层岩石性质相同假设，通过计算等效深度点对孔隙压力进行预测，适用于泥、页岩等常压发育地层以及欠压实成因导致的超压层段，但因仅考虑了上覆岩层压力，忽略了岩性、沉积速度等影响因素，且计算过程中需要建立正常压实趋势，预测精度受限.Eaton法利用声波时差或电阻率等测井数据与正常压实趋势的偏离程度预测孔隙压力，适用于多种岩性，但建立正常压实趋势线、确定Eaton指数的过程中所需的经验参数较多、主观性较强，预测结果可能偏低(樊洪海，2003).Bowers法基于有效应力原理通过建立加载和卸载两种模型利用速度与有效应力之间的关系对孔隙压力进行预测，适用于欠压实、流体膨胀等多种异常压力成因的复杂地质条件，且因不依赖于正常压实趋势线，避免建立正常压实趋势方程引起的误差，但受声波速度的影响较大，对测井数据的质量要求较高，且涉及多个具有区域性的经验参数，需要实测压力点的数量有一定的要求.后续，众多学者对基于经验公式的孔隙压力预测方法进行了修正与完善，但模型建立的过程相对复杂或不可避免地引入了更多的经验参数(Azadpour et al., 2015；Riahi and Fakhari, 2022；Vernik and de Newton, 2022；王斌等，2022；张冰和徐嘉亮，2022).

近年来，机器学习技术被广泛应用于地球物理测井，在岩性识别、储层评价、孔隙度和渗透率预测等方向中为油气和矿产资源勘探提供了智能化的解决方案，提升了勘探的效率和精度的同时，推动了地球物理勘探向智能化解释的方向发展(Chen et al., 2024；Song and Ntibahanana, 2024；高飞等，2024；史鹏宇等，2024；Wang et al., 2025).目前，已有许多学者开始尝试利用机器学习技术进行孔隙压力预测的方法研究，较为真实地实现了钻井、测井资料到地层压力的非线性映射，在不同程度上提高了预测精度(Yu et al., 2020；Zhang et al., 2022；Ajibola et al., 2022；Huang et al., 2022；Abdelaal et al., 2022).但此类研究大多集中在对比不同机器学习算法的预测精度及性能，对探索能够用于孔隙压力智能预测的特征参数的研究尚不够深入和完善(Li et al., 2023；Deng et al., 2024；金浩等，2024；马天寿等，2024).

为此，本文在前人研究的基础上建立了基于极致梯度提升树的孔隙压力智能预测模型，除声波速度、密度、自然伽马等测井数据外，将实际的纵波速度与速度正常压实趋势线之比作为特征参数加入模型训练，有效提升了孔隙压力的预测精度.在此基础上，提出一种用于代替速度正常压实趋势线的曲线Dv进行孔隙压力的智能预测方法，并将该方法在其他预测精度较高的机器学习回归模型(随机森林、长短期记忆循环神经网络)中进行了有效性验证.此外，通过选用了某海域不同超压机制下的邻井对该模型的鲁棒性和泛化能力进行了测试.研究结果表明，基于XGBoost的孔隙压力智能预测方法能够实现较高的预测精度和效率；速度正常压实趋势线的加入能够有效提升模型的预测精度和泛化能力；Dv曲线可以代替速度正常压实趋势进行孔隙压力的智能预测，在不明显降低模型预测精度和泛化能力的前提下，有效避免了建立正常压实趋势过程中经验参数多、主观性强等问题；利用Dv曲线代替正常压实速度趋势加入模型的方法同样适用于其他机器学习回归算法.

1 技术方法

基于机器学习的孔隙压力预测需要充足的标签数据进行模型训练.然而，由于孔隙压力在测量过程中存在技术难度、成本限制以及复杂的地质条件等多重挑战，导致能够用于智能预测的高质量实测地层压力数据十分匮乏.考虑到基于经验公式的孔隙压力预测方法，例如等效深度法、Eaton法、Bowers法等，在不同地质条件下的准确性可能存在差异，本文在确定目标层段超压机制的基础上，选用合适的孔隙压力方法进行预测，以获得高精度、可靠的标签数据集，为后续机器学习模型的训练与评价提供可靠的数据支持.

1.1 超压机制判别

异常高压的成压机制多种多样，大致可分为欠压实、构造挤压、流体膨胀以及流体运移四大类.其中，流体运移和构造挤压形成的超压需要结合测井数据以及地质构造历史进行判断，孔隙压力的预测方法具有较强的区域性.本文研究区域具有明显的欠压实和生烃作用的特点，因此研究重点针对欠压实和流体膨胀两类.

常见的基于测井数据的超压机制判别方法包括速度-密度交会图法、速度-有效应力交会图法以及声波-电阻率-密度曲线法.其中Bowers提出的速度-密度交会图法因数据获取便捷、方法简单高效得到了广泛引用.如图 1所示，正常压实条件下的速度-密度散点群会沿着加载曲线均匀分布；欠压实条件下的声波速度与密度呈减小趋势，下部地层的速度-密度散点群会回落至上部地层的散点群附近；流体膨胀条件下的速度减小而密度基本不变或呈略微减小的趋势，其速度-密度散点群会落在卸载曲线附近.

显示原图|下载原图ZIP|生成PPT

图1 速度-密度交会图法

Fig 1 Intersection diagram of velocity and density

1.2 标签数据制作

为解决机器学习过程中标签数据需求量大而实测地层压力数据严重不足的问题，本文针对不同超压机制的孔隙压力选取相应的孔隙压力预测方法进行预测，以获得相对准确的标签数据.

(1) Eaton法

Eaton法是一种基于垂直有效应力的孔隙压力预测方法.它通过分析声波时差、密度、电阻率等数据，结合正常压实趋势线来估算地层压力.其核心假设是地层的孔隙压力与压实程度密切相关.其基本公式为：

(1)

$P_{\mathrm{p}}=P_0-\left(P_0-P_{\mathrm{w}}\right)\left(\Delta t_n / \Delta t_i\right)^c, $

其中，P_p为地层孔隙压力，P₀为上覆地层压力，P_w为静水压力，Δt_n为正常压实条件下的声波时差，Δt_i为实际的声波时差，c为Eaton指数.

该方法的优点为计算简单，适用于多种数据类型，在正常压实和欠压实区域均表现良好.但预测精度容易受到经验参数及正常压实趋势线的影响，且在高孔隙压力区域可能会存在偏差.

(2) Bowers法

Bowers法是一种基于声波速度的孔隙压力预测方法.与Eaton法不同，Bowers法考虑了卸载效应(Unloading Effect)，适用于经历过地质卸载(如抬升、侵蚀、流体膨胀等)的地层.其卸载条件下的计算公式为：

(2)

$P_{\mathrm{p}}=P_0-\sigma_{\max }\left[\frac{\left(\frac{V-V_{\mathrm{w}}^{\frac{1}{B}}}{A}\right)}{\sigma_{\max }}\right]^{\mathrm{U}}, $

其中，σ_max为最大有效应力，V_w为海水速度，A、B为待拟合参数，U为泥岩弹塑性参数.

这种方法能够有效处理地质卸载条件下的孔隙压力预测，考虑了地层的历史地质过程，预测结果更精确.但计算复杂度较高，需要更多地质背景信息和经验参数.且对数据的质量要求较高，难以在数据缺失的情况下应用.

本文在对超压机制进行判别的基础上，选用不同的经验公式计算孔隙压力.在正常压实和欠压实层段选用Eaton法进行计算，在流体膨胀层段选用Bowers法进行计算，此外结合钻井日志、地漏实验、钻井液密度等对计算结果进行校正后用作标签数据，以提高预测的准确性和可靠性，能够更好地适应岩性变化大、成压机制相对复杂的地层.

1.3 XGBoost算法

极致梯度提升树(eXtremeGradient Boosting, XGBoost)算法是一种具有代表性的基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)算法的工程实现，以其高效、灵活和准确的特性被广泛应用于分类、回归以及排序等任务.如图 2所示，其核心思想是通过训练一系列弱学习器(通常为决策树)来优化损失函数，逐渐减小模型残差，最终组合成一个强大的预测模型.通过加入正则化项、使用二阶泰勒展开优化目标函数等操作，有效地控制模型复杂度，防止过拟合.在数据挖掘、金融风控、推荐系统等领域得到了广泛的应用，能够处理大规模数据并提供高精度的预测.

显示原图|下载原图ZIP|生成PPT

图2 XGBoost算法原理流程图

Fig 2 Flowchart of XGBoost algorithm

XGBoost的加法模型可以表示为：

(3)

$\hat{y}_i^{(t)}=\hat{y}_i^{t-1}+f_{\mathrm{t}}\left(x_i\right), $

其中，

$ \hat{y}_i^{(t)}$

表示前t棵树对样本i的预测值, f_t(x_i)表示基学习器，即决策树.第t棵决策树目标函数为：

(4)

$\begin{aligned}{Obj}^{(t)}(\theta) & =\sum\limits_{i=1}^n l\left(y_i, \hat{y}_i\right)+\varOmega\left(f_{\mathrm{t}}\right)+\text { constant } \\& =\sum\limits_{i=1}^n l\left(y_i, \hat{y}_i^{(t-1)}+f_{\mathrm{t}}\left(x_i\right)\right)+\varOmega\left(f_{\mathrm{t}}\right)+\text { constant }, \end{aligned}$

其中，l表示损失函数；y_i为样本i的真实值；Ω(f_t)为正则项.对于回归问题，XGBoost常使用的损失函数是均方误差(Mean Squared Error, MSE)：

(5)

$L(y, \hat{y})=\frac{1}{n} \sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)^2, $

其中，y_i为真实值，

$ \hat{y}_i$

为预测值.

XGBoost算法通过梯度下降的方式不断优化损失函数，基于信息增益或基尼系数等指标通过贪心算法寻找最优的分裂点高效地构建决策树.在梯度提升决策树的基础上对损失函数进行了二阶泰勒展开，精度更高的同时加快了优化速度；将树模型的复杂度加入了正则项，防止过拟合，提高模型的泛化能力；可以实现缺失值的自动处理，选择增益较大的那一边作为该样本的分裂方向；采用Blocks存储结构，可以实现并行计算，表达式为：

(6)

$\begin{aligned}O b j^{(t)}(\theta)= & \sum\limits_{i=1}^n l\left(y_i, \hat{y}_i^{(t-1)}+g_i f_{\mathrm{t}}\left(x_i\right)+\right. \\& \left.\frac{1}{2} h_i f_{\mathrm{t}}^2\left(x_i\right)\right)+\varOmega\left(f_{\mathrm{t}}\right)+\text { constant }, \end{aligned}$

其中g_i、h_i分别为该样本点的一阶导数和二阶导数.

目前，XGBoost在地球物理测井中广泛应用于储层参数预测(如孔隙度和渗透率)、岩性识别、测井曲线重构以及测井解释规则库的自动建立等任务.其高效性和准确性使其能够有效处理测井数据中的复杂关系，提升测井解释的自动化能力，为油气勘探和开发提供有力支持.

1.4 其他机器学习回归算法

本文选取了目前孔隙压力智能预测中预测精度较高的机器学习算法进行对比测试和方法验证，即随机森林(Random Forest, RF)算法与长短期记忆循环神经网络(Long-Short Time Memory, LSTM).其中，随机森林算法通过装袋(Bagging)方式构建决策树，在样本随机的基础上增加了特征随机，可以处理很高维度的数据，并且不用降维，无需做特征选择，训练速度快、实现简单，但已经被证明在某些噪声比较大的分类或回归问题上会过拟合；长短期记忆循环神经网络使用输入门、输出门和遗忘门控制序列信息的传输，解决了标准循环神经网络时间维度的梯度消失问题，提高了对具有长时间间隔相关性特点的序列信息的处理能力，但计算成本较高，训练时间较长，对数据预处理的要求也更高.

1.5 特征工程

特征工程是机器学习中一个关键步骤，旨在通过对原始数据的转换、选择和优化，提取出对模型更有价值的信息，使模型能够更精准地理解和预测数据.特征工程涵盖了从数据获取与理解到错误分析与模型改进的全方位流程，其关键技术主要包括特征提取、特征选择和特征转换.在实际应用中，特征工程往往比模型选择本身更为关键.

利用地球物理测井资料预测孔隙压力的原理在于常压条件下，随着埋深的增加，密度、电阻率会呈规律性增长，而声波时差则逐渐降低.根据有效应力原理，孔隙流体压力高于正常压力水平时会导致岩石骨架颗粒间的有效应力降低，使得孔隙度增加，补偿密度和电阻率下降，声波时差上升.此外，自然伽马可用于划分岩性、确定泥质含量，进而辅助判断超压成因.这些测井响应特征为识别和预测异常孔隙压力提供了重要依据.部分学者在进行孔隙压力智能预测的过程中会将井深作为特征参数加入模型的训练，然而井深作为一个空间分布特征，与是否形成超压并未存在直接关联但可能会主导孔隙压力的预测，而忽视实际钻进过程中物理响应特征与孔隙压力的内在联系.地层静水压力作为判断地层是否存在异常压力的基准，不仅与井深强相关而且能够对异常压力进行定性、定量的描述，将加入特征参数组合可以对孔隙压力的纵向特征进行一定程度的约束，有助于提升模型的预测准确性和泛化能力.

除去能直接获得的测井数据外，考虑到正常压实趋势线不仅能够定性判断是否存在异常高压，还可以根据实际的测井数据与正常压实趋势的偏离程度定量判断异常压力的大小，因此将实际的纵波速度与速度正常压实趋势线之比作为特征参数加入模型训练以期能够提高模型的预测精度及泛化能力.然而，正常压实趋势的建立不仅需要从测井数据中选取纯泥岩段，剔除扩径段、异常点以及受流体影响较大的层段，而且对非连续沉积地层，需要建立多条正常压实趋势方程，计算过程相对复杂.且如公式(7)所示，正常压实趋势公式在建立过程中需要结合岩石骨架速度、浅地表速度、压实系数等多个区域性的参数，主观性较强.式(7)为：

(7)

$\log V_{\mathrm{p}}\left(z_{\mathrm{ml}}\right)=\log V_{\mathrm{pMatrix}}-\left(\log V_{\mathrm{pMatrix}}-\log V_{\mathrm{pTop}}\right) \times \mathrm{e}^{-b x s_{\mathrm{ml}}}, $

其中，V_pMatrix为岩石骨架速度；V_pTop为浅地表速度；b为压实系数.

考虑到利用机器学习和经验公式法预测孔隙压力的原理与有较大差异，采用机器学习算法进行孔隙压力预测的鲁棒性更强，能够在数据分布变化或噪声存在时保持良好性能，本文提出利用浅地表速度和最大声波时差建立公式的方法，并将实际的纵波速度与该曲线之比加入到模型的训练中用于地层孔隙压力的预测，在不明显降低预测精度的前提下，提高预测过程的可重复性、避免建立正常压实趋势建立过程中引入的误差.公式为：

(8)

$D v=\frac{V_{\mathrm{pMax}}-1524}{ { Depth }} { Depth }+1524, $

其中，V_pMax为声波速度的最大值；Depth为对应的深度值.

2 应用实例

2.1 数据收集及预处理

本研究选用某海域3口典型的超压井A、井B、井C进行方法验证.其中，井A用于模型的训练和测试，按4:1随机划分训练集和测试集；井B和井C的用于评价模型的泛化能力.数据的预处理部分主要包括：缺失值补全、异常值剔除以及平滑滤波等操作，如图 3所示.

显示原图|下载原图ZIP|生成PPT

图3 三口井的测井数据

Fig 3 Logging data from 3 wells

利用速度-密度交会图法对三口井的超压机制进行判别，如图 4所示，井A、井B速度异常区域的散点(粉红色)落在卸载曲线附近，为生烃型超压；井C速度异常区域的散点回落到加载曲线附近，为欠压实型超压.将训练好的模型用于井B和井C的孔隙压力智能预测，并根据预测结果对不同超压机制下模型的适用性及泛化能力进行评价.

显示原图|下载原图ZIP|生成PPT

图4 3口井的速度-密度交会图

Fig 4 Intersection diagram of velocity and density of 3 wells

为尽可能获得真实的孔隙压力用作标签数据，正常压实及欠压实的层段选用Eaton法对孔隙压力进行计算；在生烃增压的层段选用Bowers卸载法对孔隙压力进行计算.在此基础上，结合钻井日志、地漏实验、钻井液密度、地层压力监测数据等对结果进行校正，使其具有更高的精度和准确度.图 5展示了三口超压井的孔隙压力预测结果，即标签数据.井A在2818~37735 m处出现超压，最大地层孔隙压力达到60.4 MPa；井B在3233~3700 m处出现超压，最大地层孔隙压力达到59.8 MPa；井C在2884~3750 m处出现超压，最大地层孔隙压力达到55.2 MPa.

显示原图|下载原图ZIP|生成PPT

图5 地层孔隙压力(标签数据)

Fig 5 Formation pore pressure(labeled data)

2.2 特征工程

根据前人研究成果和现场试验情况表明，纵波速度(V_p)、密度(Rho)、自然伽马(GR)等测井数据能够较好的反映出孔隙压力的变化趋势，故而将其作为特征参数组合1进行训练(如表 1所示).测试集的决定系数为0.9984，平均绝对误差0.3205，具有较高的预测精度.然而，将训练后的模型用于邻井的孔隙压力预测时发现，井B、井C均出现较大的误差，主要表现为浅层正常压实区域出现超压、而深层超压层段出现预测结果异常小，如图 6所示.这是由于模型在训练过程中缺少纵向特征约束，将静水压力作为特征参数参与模型的训练后，测试集的平均绝对误差降为0.0661.且如图 7所示，邻井的预测异常得到了明显控制，其中井B的平均绝对误差由2.4110降为2.1319；井C的平均绝对误差由5.4193降为1.6180.因此，本文认为为提高模型的泛化能力及鲁棒性，特征参数组合中需要包含必要的纵向特征进行约束.考虑到井深作为一个空间分布特征，与超压的形成没有必然的联系，而静水压力不仅能够指示模型的纵向分布规律，而且能够在一定程度上对异常压力进行定性和定量的判断，可以为孔隙压力的智能预测提供有效的纵向信息.因此，将静水压力(P_Hydro)加入特征参数组合，作为特征参数组合2(如表 1所示)的特征参数进行训练.

表1 特征参数组合

Table 1 Combination of characteristic parameter

组合类型	特征参数
特征参数组合1	V_p\Rho\GR
特征参数组合2	V_p\Rho\GR\P_Hydro
特征参数组合3	V_p\Rho\GR\P_Hydro\div_Vp_NC
特征参数组合4	V_p\Rho\GR\P_Hydro\div_Dv

显示原图|下载原图ZIP|生成PPT

图6 不同机器学习算法在特征参数组合1下的孔隙压力预测结果

(a)(d) RF；(b)(e) XGBoost；(c)(f) LSTM.

Fig 6 Pore pressure prediction results of different machine learning algorithms under feature parameter combination 1

显示原图|下载原图ZIP|生成PPT

图7 不同机器学习算法在特征参数组合2下的孔隙压力预测结果

(a)(d) RF；(b)(e) XGBoost；(c)(f) LSTM.

Fig 7 Pore pressure prediction results of different machine learning algorithms under feature parameter combination 2

此外，实际的声波时差与正常压实下的声波时差的差异大小一定程度上反应了异常压力的大小，因此将实际的纵波速度与速度正常压实趋势线之比加入特征组合，作为特征参数组合3(如表 1所示)的特征参数进行训练；为避免建立速度正常压实趋势过程中主观性强，经验参数较多等问题，利用Dv曲线代替速度正常压实趋势，将div_Dv加入特征参数组合，作为特征参数组合4(如表 1所示)的特征参数进行训练.

利用Pearson相关系数衡量各特征参数与标签数据的相关性程度，由图 8可知上述特征参数均与孔隙压力有较强的相关性，其中、div_Dv与地层孔隙压力的相关系数高达0.83.且与div_Dv之间的相关系数为0.97，因此，将div_Dv代替进行模型的训练以避免建立速度正常压实趋势的方法在一定程度上是可行的.

显示原图|下载原图ZIP|生成PPT

图8 Person相关性分析热力图

Fig 8 Person correlation analysis heatmap

图 9为三口井的纵波速度以及根据公式(7)、(8)计算所得的速度正常压实趋势线和Dv曲线.三口井的和Dv曲线整体趋势基本一致，均随着深度的增加逐渐增大，中浅层差异较为明显，深层差异较小，特别是在速度出现异常的位置与Dv基本保持一致.

显示原图|下载原图ZIP|生成PPT

图9 速度正常压实趋势线与Dv曲线对比图

Fig 9 Comparison between the trend line of velocity normal compaction and the Dv curve

2.3 模型构建及结果

为了评估不同特征组合对XGBoost模型性能的影响，我们分别采用特征参数组合2至特征参数组合4进行模型训练.在训练过程中，采用k折交叉验证(k-fold cross-validation)方法对数据集进行多次划分和验证，并通过计算验证集上的均方误差(Mean Squared Error, MSE)来评估模型性能.同时，我们系统性地确定了每种特征参数组合下的最优k值，以确保在模型准确性和计算效率之间达到最佳平衡.

图 10为通过一系列实验显示，不同特征参数组合对应的最优k值存在显著差异.具体而言，特征参数组合2在k=4时表现最佳，其均方误差最小，表明该组合的特征选择较为复杂，需要适中的验证集规模来避免过拟合；特征参数组合3在k=8时达到最优性能，说明其特征选择更为细化，需要更大规模的验证集来确保模型的泛化能力；特征参数组合4则在k=4时表现最优，表明其特征选择能够在模型复杂性和计算效率之间取得较好的平衡.此外，对比三种特征参数组合的均方误差结果可以发现，特征参数组合4的模型性能最优，均方误差为0.0117，验证了其在处理复杂数据特征时的优势.

显示原图|下载原图ZIP|生成PPT

图10 k折交叉均方误差对比

(a)特征参数组合2；(b) 特征参数组合3；(c) 特征参数组合4.

Fig 10 MSE for k-fold crossover

(a) Combination 2;(b) Combination 3;(c) Combination 4.

此外，为进一步提升模型的预测准确性，对XGBoost模型的关键超参数进行了系统性优化，包括弱学习器的数量(n_estimators)、最大树深(max_depth)、学习率(learning_rate)以及采样比例(subsample).这些超参数对模型的性能具有显著影响：弱学习器的数量决定了模型的复杂程度，最大树深控制了单棵决策树的深度，学习率影响模型的收敛速度和精度，而采样比例则用于防止过拟合并提高模型的泛化能力.通过对这些参数进行组合优化，可以有效提升模型的预测性能.

通过对比不同特征参数组合的优化结果可以发现，不同特征参数组合的最优超参数配置存在一定差异，如图 11所示.其中，最大树深为3和采样比例为0.8是三种组合的共同选择，这意味着适中的树深和采样比例能够有效平衡模型的复杂性和泛化能力.此外，弱学习器数量均为150，说明较高的弱学习器数量有助于提升模型的性能.而学习率的差异则反映了不同特征参数组合对模型收敛速度的特殊需求.超参数优化结果如表 2所示.

显示原图|下载原图ZIP|生成PPT

图11 超参数优化均方误差对比

(a)特征参数组合2；(b) 特征参数组合3；(c) 特征参数组合4.

Fig 11 MSE for different hyperparameter optimization

(a) Combination 2;(b) Combination 3;(c) Combination 4.

表2 超参数优化结果

Table 2 Results of hyperparameter optimization

组合类型	弱学习器数量[100, 130, 150]	最大树深[3, 4, 5]	学习率[0.05, 0.1, 0.15]	采样比例[0.6, 0.8, 1.0]
特征参数组合2	150	3	0.1	0.8
特征参数组合3	150	3	0.15	0.8
特征参数组合4	150	3	0.15	0.8

如图 12所示，基于三种不同特征参数组合的模型对测试集的孔隙压力预测结果进行了评估.结果显示，这些模型均能实现较高的预测精度，其决定系数均大于0.99，充分验证了模型的可靠性和有效性.在特征参数组合中加入div_Vp_NC后，模型的预测误差显著降低，均方根误差从原始的0.1204降至0.1145，同时平均绝对误差和平均相对误差也均有所下降.这表明div_Vp_NC作为特征参数的引入能够有效提升模型的预测性能.

显示原图|下载原图ZIP|生成PPT

图12 部分测试集孔隙压力预测结果

(a)特征参数组合2；(b) 特征参数组合3；(c) 特征参数组合4.

Fig 12 Predicted pore pressure for part of the test set

(a) Combination 2;(b) Combination 3;(c) Combination 4.

为解决在正常压实趋势线建立过程中存在的计算复杂性和主观性较强的问题，我们将div_Dv代替div_Vp_NC作为特征参数参与模型训练.研究结果显示，这一调整并未显著影响测试集的预测精度和误差水平，且模型的预测过程更加高效便捷，同时具有更强的可重复性.因此，本文所提出的Dv曲线能够有效地替代Vp_NC曲线参与孔隙压力的智能预测任务.

在孔隙压力智能预测过程中，不仅XGBoost模型表现优异，随机森林和长短时记忆神经网络在过去的研究中也展现出了较高的预测精度.为更全面地评估本文所提出方法的有效性，我们将其应用于上述两种机器学习回归模型中进行验证和对比测试.如表 3所示，在不同特征参数组合和算法条件下，三种机器学习算法均能实现孔隙压力的准确预测，其预测结果与真实值的决定系数均大于0.99，充分验证了模型的可靠性.引入div_Vp_NC作为特征参数后，各项误差均有所降低，显著提升了孔隙压力预测的精度和准确性.值得注意的是，将div_Dv代替div_Vp_NC后，三种机器学习算法的预测性能基本保持一致或轻微下降，其中长短时记忆神经网络表现尤为突出，其平均相对误差从原始水平的0.46%显著下降至0.34%, 进一步验证了div_Dv曲线在孔隙压力智能预测中的有效性和优势.

表3 测试集孔隙压力预测结果评价

Table 3 Evaluation of test set pore pressure prediction results

算法模型		决定系数			均方根误差			平均绝对误差			平均相对误差/%
算法模型		组合2	组合3	组合4	组合2	组合3	组合4	组合2	组合3	组合4	组合2	组合3	组合4
测试集	RF	1.0000	1.0000	1.0000	0.0407	0.0405	0.0403	0.0158	0.0161	0.0159	0.05	0.05	0.05
	XGBoost	0.9999	0.9999	0.9999	0.1204	0.1145	0.1063	0.0877	0.0821	0.0799	0.36	0.35	0.35
	LSTM	0.9996	0.9999	0.9999	0.2773	0.1596	0.1307	0.2220	0.1154	0.0903	0.86	0.46	0.34

2.4 泛化能力评价

为评估模型的泛化能力，我们将训练好的模型应用于不同超压机制的两口邻井进行孔隙压力智能预测.其中，井B与井A距离较近且均为生烃型超压；井C距离井A较远，为欠压实型超压.在图 13和图 14中展示了井B、井C在不同特征参数组合及算法条件下的预测结果及误差情况.表 4为井B、井C孔隙压力预测综合评价结果.

显示原图|下载原图ZIP|生成PPT

图13 井B、井C孔隙压力预测结果对比

(a)(d) RF；(b)(e) XGBoost；(c)(f) LSTM.

Fig 13 Comparison of pore pressure predictions for wells B and C

显示原图|下载原图ZIP|生成PPT

图14 井B、井C孔隙压力预测结果评价

Fig 14 Evaluation of pore pressure prediction results for wells B and C

表4 井B、井C孔隙压力预测结果评价

Table 4 Evaluation of pore pressure prediction results for wells B and C

算法模型		决定系数			均方根误差			平均绝对误差			平均相对误差/%
算法模型		组合2	组合3	组合4	组合2	组合3	组合4	组合2	组合3	组合4	组合2	组合3	组合4
井B	RF	0.8778	0.9519	0.9763	3.8843	2.6662	1.7182	2.3344	1.8629	1.4331	8.36	7.28	6.48
	XGBoost	0.9216	0.9522	0.9768	3.1101	2.4286	1.6928	2.0887	1.8002	1.4062	7.96	7.20	6.09
	LSTM	0.9288	0.9468	0.9471	3.9649	3.5636	2.5550	2.3055	2.2391	2.1194	9.98	10.15	9.45
井C	RF	0.9493	0.9654	0.9747	2.9469	2.4349	2.0801	2.0236	1.7892	1.4857	5.32	4.88	4.08
	XGBoost	0.9686	0.9854	0.9881	2.2971	1.5795	1.4253	1.5688	1.2114	1.1721	4.43	3.62	3.59
	LSTM	0.6279	0.7108	0.7345	7.9811	7.0364	6.7413	7.0645	6.4210	5.8316	25.87	22.33	21.37

井B的孔隙压力超压范围位于3061~3694 m深度区间.三种模型均表现出较高的预测精度，决定系数均大于0.87.此外，在引入div_Vp_NC和div_Dv作为特征参数后，随机森林与XGBoost能够有效校正部分异常值，从而显著提升了预测精度.而长短时记忆网络在该区域的预测结果偏高，其误差相对较大.井C的孔隙压力超压范围位于2995~3745 m深度区间.3种机器学习算法中，XGBoost表现出最强的预测精度和最好的泛化能力，其预测精度在引入div_Dv后更加突出.与此同时，该算法不易受到不同超压机制和深度范围的变化的影响，

使其在复杂地层条件下的应用具有显著优势.而随机森林由于其最大绝对误差较大，难以满足孔隙压力预测的安全性要求.长短时记忆网络则因其主要依赖于特征参数的纵向时序关系，对超压机制及深度范围的变化表现出较高的敏感性，例如，在1800~3100 m处及3400 m左右均出现预测结果偏小的情况，这可能会限制其在复杂地质环境下的实际应用.

2.5 可解释性分析

本文使用XGBoost算法构建了一个高性能的预测模型，并借助SHAP工具对模型的可解释性进行了深入分析.通过计算SHAP值，量化了每个特征对模型预测的贡献，从而帮助我们理解模型的决策逻辑.

特征重要性条形图是SHAP提供的核心可视化工具之一，它通过展示每个特征的平均SHAP值来衡量其对模型预测的整体贡献.而SHAP点图(Summary Plot)是一种更为详细的可视化工具，它不仅显示了特征的平均重要性，还展示了每个特征值对模型预测的具体影响.在点图中，每个点代表一个样本，其位置反映了该特征值对模型预测的贡献方向和大小.通过这种方式，我们能够快速识别出模型中最为关键的特征，并进一步分析其与目标变量之间的关系.图 15清晰地揭示了不同特征参数对模型的预测能力最为关键.3种特征参数组合中静水压力的平均SHAP值最高，表明其对模型输出的影响最大.div_Vp_NC和div_Dv的平均SHAP值均超过了声波速度，为孔隙压力的智能预测提供了更为有效的信息.此外，点图的颜色编码进一步揭示了特征值的分布情况，帮助我们理解特征值的范围如何影响模型输出.例如，div_Vp_NC和div_Dv这两个特征的高值样本通常对模型预测产生负向影响，而低值样本则产生正向影响.这意味着当实际的声波速度低于正常压实下的声波速度时会出现超压，速度越低孔隙压力越高，这与我们现有的认识是一致的.通过这种可视化，我们能够更细致地分析特征与预测结果之间的复杂关系.

显示原图|下载原图ZIP|生成PPT

图15 SHAP特征重要性分析

(a)特征参数组合2；(b) 特征参数组合3；(c) 特征参数组合4.

Fig 15 Feature importance evaluation of SHAP

(a) Combination 2;(b) Combination 3;(c) Combination 4.

此外，SHAP热力图通过展示特征值与SHAP值之间的关系，为模型的可解释性提供了更深层次的视角.图 16中横轴是每个实例，用颜色描述该特征对该实例的影响方向和力度，纵轴表示每个特征对该实例的影响，热图矩阵上方的曲线则是模型的输出.例如，x轴在20附近的实例，静水压力对它起到正向作用，而div_Vp_NC和div_Dv对它起负向作用，其他特征产生的影响则比较小.

显示原图|下载原图ZIP|生成PPT

图16 SHAP热力图

(a)特征参数组合2；(b) 特征参数组合3；(c) 特征参数组合4.

Fig 16 Heat map of SHAP

(a) Combination 2;(b) Combination 3;(c) Combination 4.

通过利用SHAP工具对XGBoost模型的可解释性进行了较为全面的分析.这些可视化工具不仅揭示了模型中最重要的特征，还展示了特征值如何影响模型的预测结果.这种分析方法为模型的优化和特征工程提供了重要的指导，同时也增强了我们对模型决策机制的理解.下一步可以探索SHAP工具在其他复杂模型中的应用，以提高模型的可解释性和透明度.

3 结论

本文提出的基于XGBoost的孔隙压力智能预测方法能够在实现高精度、高效率的同时，展现出较强的泛化能力和鲁棒性；引入div_Vp_NC后，模型的预测精度和泛化能力得到显著提升的同时也能够降低预测误差；Dv曲线可以代替速度正常压实趋势进行孔隙压力的智能预测，不仅能够在不明显降低模型预测精度和泛化能力的情况下避免经验参数过多、主观性强等问题，还能简化数据准备过程，提高实验的可重复性；利用Dv曲线代替正常压实速度趋势加入模型的方法同样适用于其他机器学习回归算法，但XGBoost的各项误差评价指标表现更优，且不容易受到超压机制变化和深度范围的影响.

感谢审稿专家提出的修改意见和编辑部的大力支持！

References

Publishing order | Descend order by publishing year | Descend order by cited within

Abdelaal

, Elkatatny

, Abdulraheem

. Real-time prediction of formation pressure gradient while drilling. Scientific Reports, 2022, 12 (1): 11318

模态框（Modal）标题

Abstract

Cite this article

0 引言

1 技术方法

1.1 超压机制判别

图1 速度-密度交会图法

1.2 标签数据制作

1.3 XGBoost算法

图2 XGBoost算法原理流程图

1.4 其他机器学习回归算法

1.5 特征工程

2 应用实例

2.1 数据收集及预处理

图3 三口井的测井数据

图4 3口井的速度-密度交会图

图5 地层孔隙压力(标签数据)

2.2 特征工程

表1 特征参数组合

图6 不同机器学习算法在特征参数组合1下的孔隙压力预测结果

图7 不同机器学习算法在特征参数组合2下的孔隙压力预测结果

图8 Person相关性分析热力图

图9 速度正常压实趋势线与Dv曲线对比图

2.3 模型构建及结果

图10 k折交叉均方误差对比

图11 超参数优化均方误差对比

表2 超参数优化结果

图12 部分测试集孔隙压力预测结果

表3 测试集孔隙压力预测结果评价

2.4 泛化能力评价

图13 井B、井C孔隙压力预测结果对比

图14 井B、井C孔隙压力预测结果评价

表4 井B、井C孔隙压力预测结果评价

2.5 可解释性分析

图15 SHAP特征重要性分析

图16 SHAP热力图

3 结论

References