Research on two-dimensional reservoir grain size distribution prediction based on the fusion of automatic hyperparameter optimization framework and gradient boosting algorithm

XiMei JIANG; WeiChao YAN; HuiLin XING; JianMeng SUN

doi:10.6038/pg2024HH0199

2024 , Vol. 39 >Issue 5: 1886 - 1900

DOI: https://doi.org/10.6038/pg2024HH0199

Research on two-dimensional reservoir grain size distribution prediction based on the fusion of automatic hyperparameter optimization framework and gradient boosting algorithm

XiMei JIANG ^,¹^,² ,
WeiChao YAN ^,¹^,²^,* ,
HuiLin XING ¹^,² ,
JianMeng SUN ³

Expand

¹ Frontiers Science Center for Deep Ocean Multispheres and Earth System, Key Lab of Submarine Geosciences and Prospecting Techniques, MOE and College of Marine Geosciences, Ocean University of China, Qingdao 266100, China
² Deep Sea Multidisciplinary Research Center, Qingdao National Laboratory for Marine Science and Technology, Qingdao 266237, China
³ College of Earth Sciences and Technology, China University of Petroleum (East China), Qingdao 266580, China

Received date: 2023-08-15

Online published: 2024-12-19

Copyright

Fold

Abstract

Rock grain size plays a significant role in the analysis of hydraulic conditions and the identification of depositional environments. Traditional methods for grain size measurement, for instance sieve analysis and laser diffraction, are time-consuming, costly, and suffer from discontinuity in depth due to limited core recovery during drilling. Although the combination of well log curves and machine learning methods can compensate for the limitations of rock physics experimental techniques, existing studies mainly focus on one-dimensional characteristic values of grain size, lacking a comprehensive representation of the two-dimensional grain size distribution. In this study, we propose a machine learning approach that combines the automatic hyperparameter optimization framework (Optuna) with gradient boosting algorithms (LightGBM and XGBoost) to address the challenge of predicting two-dimensional grain size distribution in reservoirs. Based on well log data and grain size distribution experimental data from a certain block in the Chengdao oilfield, we compare eight different machine learning methods, including linear regression, Support Vector Regression (SVR), k-Nearest Neighbors (k-NN), random forest, Gradient Boosting Decision Tree (GBDT), XGBoost, LightGBM, and Convolutional Neural Network (CNN). By optimizing the machine learning parameters, we identify the most appropriate method for predicting reservoir grain size distribution. The research results demonstrate significant differences in the accuracy of grain size distribution prediction among the ten machine learning methods. When using nine well log parameters, including natural potential, sonic, wellbore diameter, compensated neutron, natural gamma, formation resistivity, deep lateral resistivity, micro lateral resistivity, and shallow lateral resistivity, as inputs, the proposed method achieves the highest accuracy in predicting the two-dimensional grain size distribution in reservoirs, with R² coefficients approaching 0.7 and smaller errors. Furthermore, linear regression, SVR, as well as GBDT attain lower accuracy in predicting reservoir grain size distribution, which are not eligible for grain size prediction in reservoirs.

Key words： Grain size distribution; Machine learning; Optuna; XGBoost; LightGBM

Cite this article

XiMei JIANG , WeiChao YAN , HuiLin XING , JianMeng SUN . Research on two-dimensional reservoir grain size distribution prediction based on the fusion of automatic hyperparameter optimization framework and gradient boosting algorithm[J]. Progress in Geophysics, 2024 , 39(5) : 1886 -1900 . DOI: 10.6038/pg2024HH0199

0 引言

粒度是碎屑岩颗粒最基本和最主要的结构特征，对地质资源精细勘探、油气藏储层准确评价至关重要，且判别沉积环境及水动力条件具有指示性作用(张婕茹等，2018；杨宁等，2012).传统的岩石粒度分布获取方法包括筛析法、激光法，这两种方法均需要提取井中岩心，并通过实验方法测量岩心粒度以获得粒度值，但传统的方法测量粒度不仅耗时长，花费的成本高昂，人为误差大，且一些井段中取芯收获率较低.罗利等(2007)、赵军等(2013)利用自然伽马、中子、电阻率等测井曲线与粒度中值建模，杨宁等(2012)利用伽马测井曲线小波变换计算粒度参数拓宽了粒度信息来源.然而，上述方法获取的粒度参数较少，具有区域经验局限性.

近年来，随着人工智能、大数据、计算机科学的飞速发展，机器学习不仅应用于地层破裂压力预测(李华洋等，2023)、测井曲线重构(张家臣等，2022；尚福华等，2022)、油气藏的渗透率预测(Alizadeh et al., 2022；刘浩等，2022；Sun et al., 2023)、储层孔隙率预测(Yu et al., 2023；Hussain et al., 2023；汪敏等，2023)、含水饱和度预测(丁圣，2023)、识别致密砂岩储层岩性(谷宇峰等，2021)，也应用到储层粒度分布的预测(Su et al., 2018；刘珊珊和汪志明，2022；王利华等，2016；李萍等，2014；李建平等，2022；魏裕森等，2014；张小庆，2022；Huo et al., 2022).Su等(2018)基于沉积物粒度样品利用小批量k-均值算法，找到沉积物环境和粒度之间的关系；刘珊珊等(2022)基于机器学习的方法研究了随机森林、支持向量机、人工神经网络等预测模型，并选出最优的学习模型进行多采样点储层粒度剖面预测；李萍等(2014)和王利华等(2016)利用神经网络预测了储层砂岩粒度纵向剖面，且该方法在中国海上多个油田的分层防砂优化设计中获得了成功应用；李建平等(2022)借助机器学习中的极致梯度提升树来对低渗油田储层粒度进行预测，预测准确率高于传统的BP神经网络；魏裕森等(2014)利用反向传播神经网络进行储层粒度的预测，为防砂方案设计提供了依据；张小庆(2022)利用量子神经网络对低渗油田储层粒度进行预测研究，并将研究结果运用到测井解释中；Huo等(2022)提出混合集成学习模型—时间卷积网络和长短期记忆网络对储层粒度、孔隙度等储层参数进行预测，在预测精度上有较大的提升.结合测井和机器学习方法不仅能够节约时间和降低成本，且能够更准确地评价储层(侯贤沐等，2022；秦瑞宝等，2023；李春雷等，2022)，但目前机器学习研究粒度分布的方法仅围绕粒度的特征值，属于一维特征分析，单一的粒度特征值不能完全反映问题，影响对储层的评价、岩性的判断、对沉积环境的判别及水动力条件的分析.因此，亟需优选机器学习算法，研究储层连续深度粒度二维分布预测模型.

本文提出基于自动超参数优化框架与梯度提升算法融合的机器学习方法，将其应用于渤海南部埕岛油田某区块测井数据，并对比线性回归、支持向量回归(Epsilon-Support Vector Regression，SVR)、k-最近邻(k-Nearest Neighbor，k-NN)、随机森林(Random Forest)、梯度提升决策树(Gradient Boosting Decision Tree，GBDT)和卷积神经网络(Convolutional Neural Network，CNN)等常规机器学习方法，以自然电位(Spontaneous Potential, SP)、声波(Acoustic, AC)、井径(Borehloe Diameter, CAL)、补偿中子(Compensated Neutron Logging, CNL)、自然伽马(Natural Gamma Ray, GR)、地层真电阻率(True Formation Resistivity, RT)、深侧向电阻率(Deep Investigate Double Lateral Resistivity Log, RD)、微侧向电阻率(Micro Lateral Resistivity Log, RMLL)和浅侧向电阻率(Shallow Investigate Double Lateral Resistivity Log, RS)9种测井参数数据作为输入，岩石粒度二维分布作为输出进行测试，利用决定系数R²、平均绝对误差(MAE)与均方根误差(RMSE)作为评价指标评价模型效果，并优选出效果最好的模型应用到整口井的连续深度粒度二维分布预测.

1 方法原理

1.1 自动超参数优化框架(Optuna)原理

Optuna是Tkuya Akiba，Shotaro Sano等人于2019年提出的一个自动超参数软件框架(Akiba et al., 2019)，它以不断试错的方法找到最优的超参数组合，其定义有三个核心的概念，分别为目标函数、单次试验和假设研究.

Optuna优化算法的具体流程为：(1)定义目标函数的概率代理模型；(2)找到在代理模型上的最佳参数组合；(3)将最佳超参数应用于真正的目标函数；(4)更新概率代理模型，自动终止错误的结果；(5)重复步骤(2)~(4)，直到达到设置的最大迭代次数，跳出循环，输出最佳参数组合及最优目标函数值.

其中的替代概率模型是由高斯过程(GP)构造函数分布模型(Smola and Bartlett, 2000)，而若一个函数服从高斯分布，那么它由均值函数M和协方差函数k决定，如式(1)所示：

(1)

式中，任意的x对应概率密度函数f(x)是一个正态分布.核函数K(x, x′)是高斯过程中对于黑盒函数f(x)拟合的关键.假设M(x)=0，均匀采取若干个点X_1:t，代入f(x)中：

(2)

式中，ψ(X_1:t)为对应输出且服从均值为0，协方差矩阵为K的多元高斯分布，x_1+t为新的采样点，且：

(3)

(4)

由此，ψ(X_1+t)服从一维正态分布，计算新的采样点x_1+t对应的函数值.即高斯过程对先验数据拟合后，利用所求的上述分布来估计新的采样点的值.

上述高斯过程可模拟p(x|y)，即在y先验数据条件下x的概率.有：

(5)

式中，y^*为找到的最佳值，ξ(x)为不同{x(k)}形成的密度，h(x)是剩余的观察值形成的密度.贝叶斯优化方法采用了“贝叶斯定理”：

(6)

式中，f为未知的目标函数；D_1:t={(x₁, y₁), (x₂, y₂), …, (x_t, y_t)}为已观测集合，x_t为决策向量，y_t=f(x_t)+ε_t为观测值，ε_t为观测误差；p(D_1:t|f)为y的似然分布；p(f)为f的先验概率分布；p(D_1:t)为边际化f的边际似然分布，用于优化超参数；p(f|D_1:t)为f的后验概率分布.

概率代理模型和采集函数为贝叶斯优化框架的两个核心部分.概率代理模型包括先验概率模型和观测模型，在式(6)中p(f)即先验概率模型、p(D_1:t|f) 即观测模型；采集函数由后验概率分布构造，通过最大化采集函数来选择下一个最有“潜力”的评估点.合适的采集函数能够保证所选择的评估点序列总损失函数最小.损失目标函数表示为：

(7)

再根据式(5)不断迭代，每次迭代选择的评估点都是上次迭代采集函数最大化的位置，使目标损失函数值最小，并输出相应的参数组合.

贝叶斯优化在最优化采集函数的前提下，其能够在理论上保证最终收敛(Shahriari et al., 2016).Optuna是基于高斯过程的贝叶斯优化，利用概率代理模型引入了需要优化目标的先验知识，使模型能够更准确地满足黑箱函数的行为，有效地减少不必要的采样；其主动选择策略利用历史信息和不确定性，通过最大化根据模型后验分布构造的采集函数，能够有效地探索不确定性区域获取更多未知信息与利用已有信息寻找当前最优之间的关系，减少不必要的目标函数评估.

1.2 XGBoost原理

XGBoost是基于梯度提升算法GBDT改进后的集成学习算法(Chen and Guestrin, 2016)，使用基于预排序的决策树算法，每遍历一个特征，就需要计算一次特征的增益.XGBoost的基本思想为每一轮预测拟合预测上一轮预测的残差，根据样本特征得到样本分数，其计算公式为：

(8)

式中，N为决策树数目；f为决策树模型；F为对应决策树组成的函数空间，F={f(x)=ω_q(x)|(q: R^m→T, ω_q(x)∈R^T}；T为叶子节点数；ω为叶子权重；q为叶子标签.

其目标函数为：

(9)

式中，J表示树中叶子节点的数目；γ为叶子节点的系数；λ表示正则化系数；且g_i和h_i分别为：

式中，L为损失函数，w_j为：

通过上述式子不断迭代，直到迭代完N棵树，最终输出最佳的参数组合.

1.3 LightGBM原理

LightGBM是基于梯度提升决策树GBDT的高效算法，起源于2017年微软公司发布的一类算法(Ke et al., 2017).LightGBM算法采用直方图优化算法，以决定系数R²为最大的优化方向，通过超参数的设置不断进行优化.

若给定一个数据集S：

式中，x_i表示第i个样本的属性(i=1, 2, …, N)，y_i表示第i个样本的标记(i=1, 2, …, N). N表示样本数目；f(x) 为目标函数，LightGBM的目标就是找它的近似值

，以损失函数的负梯度作为当前决策树的残差近似值，不断进行迭代，使得模型的损失函数L最小化，优化的目标函数可表示为(Chen and Guestrin, 2016)：

式中，Obj^(t)为第t轮迭代的整体损失值；g_i和h_i分别表示损失函数的一阶、二阶梯度统计量；F_t-1代表前t-1颗树的输出结果，Ω(f)为正则化项；

式中，J表示树中叶子节点的数目，γ为叶子节点的系数，w_j表示叶子节点样本的权重.

1.4 基于Optuna与梯度提升算法融合的机器学习方法

本文共建立了利用线性回归、SVM、KNN、随机森林、GBDT、XGBoost、LightGBM、CNN、Optuna+LightGBM和Optuna+XGBoost等10种回归模型.前面已经介绍了Optuna与LightGBM、XGBoost原理，此处主要介绍融合Optuna与梯度提升算法的机器学习方法，实现流程如图 1所示.

显示原图|下载原图ZIP|生成PPT

图1 Optuna+LightGBM与Optuna+XGBoost预测数据流程

Figure 1 Optuna+LightGBM and Optuna+XGBoost predict data flows

首先进行数据导入，对导入的数据数据预处理，数据预处理包括数据分布分析、测井曲线与储层粒度数据相关分析、数据归一化等，数据预处理后选出相关性好的9条测井曲线及一条粒度曲线作为输入，带入Optuna优化框架，训练优化超参数组合.由于Optuna定义有目标函数损失函数及特定范围的超参数组合，每轮训练均会输出当前损失函数的分数，且会与上一轮次的训练进行比较.若在设定的最大训练轮次前Optuna优化框架试验到错误，需要重新启动Optuna优化框架，再次训练.当所设定的最大训练轮次结束后输出历史最佳分数和对应的最佳超参数组合，训练的最大轮次根据需要具体设定，如表 1所示为最大训练轮次为100时列举部分输出的历史最佳分数及超参数组合(表中第一行表示不同的粒度值，R表示粒度，如R0.420表示粒度值为0.420 mm；表中第二行表示以均方根误差为目标函数时输出的最佳分数，最佳分数越小说明模型训练效果越好).将输出的最佳超参数赋给LightGBM或XGBoost，对LightGBM或XGBoost再次训练，当训练的模型均方根误差不大于5，且决定系数达0.7(决定系数越接近1，说明模型对观测值拟合效果越好，当到达0.7时，认为拟合效果可信)，则基于Optuna优化框架融合LightGBM或XGBoost算法的模型即建立成功.将实际井数据导入基于Optuna优化框架融合LightGBM或XGBoost算法的模型，进行连续深度粒度分布预测.

表1 历史最佳分数及超参数组合

Table 1 Historical best score and hyperparameter combination

超参数	R0.420	R0.297	R0.210	R0.149	R0.105	R0.053	R0.016	R0.004
目标函数历史最佳分数(值)	0.0123	0.0158	0.0196	0.0283	0.0243	0.0293	0.0241	0.0278
n_estimators	436	176	195	229	366	247	325	397
reg_alpha	0.0723	0.0019	0.0243	0.0689	0.0101	0.0023	0.0062	0.0026
reg_lambda	0.2513	0.5598	0.1713	1.1811	0.0012	0.0118	1.3641	0.0029
colsample_bytree	0.3	0.7	1.0	0.9	0.8	0.4	0.9	0.9
subsample	0.6	0.8	0.6	0.5	0.8	0.5	0.7	0.6
learning_rate	0.0433	0.4882	0.0156	0.0790	0.1624	0.1110	0.0290	0.0547
max_depth	48	20	38	20	46	27	26	36
num_leaves	554	486	198	364	523	738	413	321
min_child_samples	5	71	1	10	17	13	19	20
cat_smooth	67	36	16	19	57	100	70	22

2 试验数据

2.1 数据来源

本文试验采用两口井的数据，均来源于位于山东省东营市河口区北部、渤海湾南部的浅海海域的埕岛油田某区块(李建等，2022).将包含自然电位测井(SP)、声波(AC)、冲洗带地层电阻率(Flushed Zone Formation Resistivity, RXO)、浅侧向电阻率测井(RS)、微侧向电阻率测井(RMLL)、地层真电阻率(RT)、深侧向电阻率测井(RD)、密度测井(density, DEN)、井径测井(CAL)、自然伽马测井(GR)、补偿中子测井(CNL)称为井A，资料样本有223个；包含(自然电位测井(SP)、声波(AC)、冲洗带地层电阻率(RXO)、地层真电阻率(RT)、密度测井(DEN)、井径测井(CAL)、自然伽马测井(GR)、补偿中子测井(CNL)，不包含(深侧向电阻率测井(RD)、浅侧向电阻率测井(RS)、微侧向电阻率测井(RMLL))称为井B，资料样本只有132个.两口井的部分测井曲线统计如表 2所示.

表2 测井曲线统计表

Table 2 Logging curve statistics table

曲线名称	AC /(μm/s)	CAL /cm	CNL /%	DEN/ (g/cm³)	GR/ API	RD/ (Ω·m)	RMLL /(Ω·m)	RS /(Ω·m)	RT /(Ω·m)	SP /mV
测井值	122.27	10.46	33.17	2.13	70.88	5.43	4.04	5.59	5.43	34.78
	122.04	10.46	33.64	2.13	70.22	5.54	4.07	5.73	5.54	35.47
	124.14	10.46	32.47	2.13	71.86	6.02	3.61	6.27	6.02	37.02
										
	100.01	10.69	35.66	2.38	101.38	3.61	4.31	3.49	3.61	43.93
	99.49	10.66	34.22	2.39	102.03	3.68	4.44	3.52	3.68	42.38
总计个数	355	355	355	355	355	355	355	355	355	355
均值	120.63	10.37	34.93	2.14	82.92	15.22	4.13	15.1	11.74	58.8
方差	8.16	0.79	2.65	0.08	13.78	12.22	0.73	12.35	13.13	13.08
最小值	95.64	8.4	26.3	1.97	62.75	2.72	1.98	2.75	1.58	33.1
上四分位	115.93	9.66	33.43	2.08	71.43	7.25	3.83	7.07	4.6	48.38
二四分位	121.24	10.69	34.43	2.11	80.63	15.21	4.13	15.12	7.28	60.39
下四分位	125.19	10.71	36.06	2.18	93.46	15.22	4.30	15.12	11.36	68.39
最大值	151.03	14.48	47.34	2.39	119.52	64.91	7.88	66.03	64.91	85.79

2.2 数据预处理

数据的预处理是机器学习模型预测的前提条件.为了充分利用有限的数据，在数据预处理试用了两种数据组合，一是井A与井B数据按深度大小合起来，并将井B中所缺的数据用均值代替，命名为data_1.二是只有井A的数据命名为data_2.数据预处理主要分为三步.

第一步，对数据绘制每个数值属性的直方图，查看每个属性的分布图，列出部分数据的分布图如图 2和图 3所示，R表示粒度，如R0.125表示粒度值为0.125 mm，纵坐标表示数据相同点的个数即频数，横坐标表示数据的具体大小.

显示原图|下载原图ZIP|生成PPT

图2 粒度数据属性分布图

(a)—(p)分别为粒度＜0.004 mm、0.004 mm、0.008 mm、0.016 mm、0.022 mm、0.031 mm、0.044 mm、0.053 mm、0.063 mm、0.074 mm、0.088 mm、0.105 mm、0.125 mm、0.149 mm、0.177 mm、0.210 mm的数据属性分布.

Figure 2 Grain data attribute distribution plot

(a)—(p) Data attribute distributions with grain sizes of < 0.004 mm, 0.004 mm, 0.008 mm, 0.016 mm, 0.022 mm, 0.031 mm, 0.044 mm, 0.053 mm, 0.063 mm, 0.074 mm, 0.088 mm, 0.105 mm, 0.125 mm, 0.149 mm, 0.177 mm, 0.210 mm, respectively.

显示原图|下载原图ZIP|生成PPT

图3 粒度及部分测井数据属性分布图

(a)—(c)分别为密度、自然伽马、深侧向电阻率测井曲线的数据属性分布；(d)—(p)分别为粒度0.250 mm、0.297 mm、0.354 mm、0.420 mm、0.505 mm、0.595 mm、0.707 mm、0.841 mm、1.000 mm、1.189 mm、1.414 mm、1.618 mm、≥2.000 mm的数据属性分布.

Fig 3 Grain size and partial logging data attribute distribution diagram

(a)—(c) Data attribute distributions of density, natural gamma and deep lateral resistivity logging curves, respectively; (d)—(p) Data attribute distributions with grain sizes of 0.250 mm, 0.297 mm, 0.354 mm, 0.420 mm, 0.505 mm, 0.595 mm, 0.707 mm, 0.841 mm, 1.000 mm, 1.189 mm, 1.414 mm, 1.618 mm, and ≥2.000 mm, respectively.

根据列举的部分数据属性分布图，当R≥2 mm、R=1.618 mm、R=1.414 mm、R=1.189 mm、R=1.000 mm、R=0.841 mm、R=0.707 mm、R=0.505 mm、R≤0.004 mm时，粒度都集中分布在一个值上，因此认为该条件下粒度值固定不变.为了得到能更精准的预测模型，需对每一种数据组合先进行相关性分析，经过相关性分析选出与粒度相关性较好的九条测井曲线，将选出的九条测井曲线作为训练特征，粒度作为训练标签，由于机器学习算法中都是为预测单个数值而设计的，回归模型中能支持多输出内在算法较少，因此在本文中对所有的回归模型采用单个标签预测输出的方式预测粒度，但在此过程中必须保证输入的训练测井曲线一致.

第二步，将数据归一化.对数据按式(15)进行归一化处理，确保各指标都处于同一数量级，并消除奇异样本数据导致的不良影响.式(15)为：

式中，X_j为参数归一化后的结果；X_min和X_max分别为X的最小值和最大值.

第三步，划分数据集.数据集分为训练集和测试集，训练集数据用来训练模型，测试集用来验证并评价模型的精度.由于本文所用的数据量较小，所以按训练集：测试集=7∶3的比例划分数据集.

3 模型的选择

正确选择模型是更准确预测数据的关键，利用评价指标决定系数R²、平均绝对误差(MAE)与均方根误差(RMSE)评价模型效果，表达式为：

式中，m为测试数据点数量.决定系数R²越接近1，平均绝对误差(MAE)与均方根误差(RMSE)越小，说明模型稳定性和精度越好，即模型效果越好.

对两种组合的数据，以SP、AC、CAL、CNL、GR、RT、RD、RMLL和RS共9种测井参数作为特征，不同粒度值作为标签，不同模型测试结果的决定系数如图 4和图 5所示.

显示原图|下载原图ZIP|生成PPT

图4 data_1试验模型相关系数

(a)1280.23 m处的粒度累计频率分布；(b)1281.35 m处的粒度累计频率分布；(c)1455.42 m处的粒度累计频率分布；(d)1452.9 m处的粒度累计频率分布.

Fig 4 The data_1 test model correlation coefficient

显示原图|下载原图ZIP|生成PPT

图5 data_2试验模型相关系数

Figure 5 The data_2 test model correlation coefficient

从图 4和图 5可看出，模型的决定系数R²总体data_1试验效果相比data_2试验效果大，data_1试验的最大决定系数R²可到0.856，且所有模型的决定系数在不同粒度上相差较小，而data_2试验的决定系数R²最大只有0.748，且所有模型的决定系数在不同粒度上相差较大，因此选用data_1作为模型试验数据.

对图 4中的所呈现的决定系数，相比于线性回归、SVR、KNN、随机森林、GBDT、XGBoost、LightGBM和CNN等传统机器学习方法，利用自动超参数Optuna与LightGBM和XGBoost融合后模型的决定系数R²总体相对较高，在众多粒度值训练下，基本均达0.6以上，且粒度为0.420 mm、0.297 mm和0.250 mm时决定系数达0.8，粒度为0.210 mm、0.177 mm和0.354 mm时均达到0.7以上.同时，自动超参数Optuna与LightGBM融合后模型的决定系数R²在试验模型中效果最佳.

模型的平均绝对误差与均方根误差对比由图 6和图 7所示.由图 6可知，基于Optuna与梯度提升算法融合的机器学习方法的均方误差与其他8个模型相比有较大的差别.整体上，其RMSE基本为最小，均小于5，而均方根误差越小，说明模型效果越好.由图 7可知，Optuna与LightGBM和XGBoost融合后模型的平均绝对误差和其他8个模型相比差别较小，但MAE整体为最小，并且Optuna与LightGBM融合相对Optuna与XGBoost融合误差更小.

显示原图|下载原图ZIP|生成PPT

图6 模型的均方根误差

Figure 6 The root mean square error of the model

显示原图|下载原图ZIP|生成PPT

图7 模型的平均绝对误差

Figure 7 The average absolute error of the model

综合决定系数R²、平均绝对误差与均方根误差，选择选用数据data_1作为模型试验数据，并用经数据data_1训练后的Optuna+LightGBM优化模型应用到整口井的粒度二维分布预测.

4 实验结果及分析

将位于山东省东营市河口区北部、渤海湾南部的浅海海域的埕岛油田某区块井A的测井曲线带入模型预测，井A的测井曲线深度从700 m到1600 m，测井曲线采样间隔0.125 m，为了匹配测井曲线与粒度分布实验结果的深度，将测井曲线重新采样，采样间隔0.01 m，总共有90001个深度点的测井值，其中带入模型的9种测井参数特征统计如表 3所示.

表3 埕岛油田某区块整口井测井曲线统计表

Table 3 Statistical table of logging curve of the whole well in a certain block of Chengdao oilfield

曲线名称	AC /(μm/s)	CAL /cm	CNL /%	GR /API	RD /(Ω·m)	RMLL /(Ω·m)	RS /(Ω·m)	RT /(Ω·m)	SP /mV
测井值	88.22	10.66	56.19	42.66	0.62	21.54	0.12	0.62	-63.11
	88.32	10.65	55.88	42.60	0.62	21.59	0.12	0.62	-63.08
	88.42	10.65	55.57	42.53	0.62	21.63	0.12	0.62	-63.05
									
	129.87	10.45	46.24	86.53	3.16	2.63	2.57	2.63	24.12
	129.81	10.45	46.13	86.64	3.16	2.63	2.58	2.63	24.13
									
	109.68	10.30	37.10	112.66	3.31	3.28	3.62	3.31	51.79
	109.61	10.30	36.99	112.79	3.30	3.28	3.62	3.31	51.81
	109.55	10.30	36.88	112.91	3.30	3.29	3.63	3.30	51.84
总计个数	90001	90001	90001	90001	90001	90001	90001	90001	90001
均值	124.45	11.17	39.20	89.67	4.47	3.02	4.05	4.47	36.53
方差	12.84	1.09	6.05	15.07	4.69	1.45	4.75	4.69	13.47
最小值	79.50	10.17	23.80	38.15	0.45	1.43	0.12	0.45	-63.11
上四分位	114.93	10.48	34.58	80.98	3.01	2.34	2.58	3.01	28.40
二四分位	123.53	10.71	38.14	90.00	3.59	2.82	3.16	3.59	32.88
下四分位	133.30	11.51	43.44	99.12	4.57	3.42	4.11	4.57	41.94
最大值	173.53	16.83	68.75	156.12	65.38	37.16	66.45	65.38	84.05

由表 3测井参数统计可知，在埕岛油田某区块的整口井的测井参数在相邻测点测井参数值相差较小，而在不同的深度段内测井参数不同，其中AC和GR数据统计中方差分别为124.45和89.67，说明在不同深度段内变化较大，AC最大值与最小值相差近100，GR最大值与最小值相差近120API；CAL在不同深度段内变化最小，最大值与最小值相差15 cm，方差仅为1.09.将变化的9种测井参数带入模型预测所得粒度二维分布结果如图 8所示.

显示原图|下载原图ZIP|生成PPT

图8 整口井的粒度二维分布预测

Figure 8 Two-dimensional distribution prediction of particle size of the whole well

图 8中，不同深度段内测井参数不同，预测所得粒度二维分布在不同深度段内分布规律不同.在深度段700 m到850 m内，粒度在颗粒较大的方向分布，在深度段850 m到1150 m内，粒度往颗粒较小的方向分布，在两个深度段内，大致可以判断深度段700 m到850 m的颗粒总体大于深度段850 m到1150 m.颗粒整体上由粗变细，说明沉积时，深度段700 m到850 m的水动力条件比深度段850 m到1150 m强.

由于粒度预测是分别预测，因此对预测数据进行平滑处理，在图中红色框内为随机列举的四块岩心预测粒度二维累计分布和粒度二维频率分布谱.很明显，粒度在1270~1290 m间的粒度分布集中于0.3~0.1 mm之间，在该段的沉积岩为中粒砂岩或者细粒砂岩.对应的GR值降低，在60~95 API之间，SP呈正差异增大，电阻率增大，CNL呈负异常降低；红色框内，1450~1470 m处，粒度在0.42~0.002 mm均占一定比例，其中在0.3~0.2 mm分布较多，说明该段中含有中粒砂岩、细粒砂岩、粗粒粉砂岩和细粒粉砂岩，但含有中粒砂岩、细粒砂岩成分较多.对应的GR值在75~105 API之间，SP、电阻率及CNL变化很小，差异不明显.对列举的四块岩心粒度分布具体如图 9和图 10所示.

显示原图|下载原图ZIP|生成PPT

图9 粒度累计概率分布曲线

Fig 9 Granularity cumulative probability distribution curve

(a) Cumulative probability distribution of grain size at 1280.23 m; (b) Cumulative probability distribution of grain size at 1281.35 m; (c) Cumulative probability distribution of grain size at 1455.42 m; (d) Cumulative probability distribution of grain size at 1452.9 m.

显示原图|下载原图ZIP|生成PPT

图10 粒度频率分布谱

(a)1280.23 m处的粒度频率分布；(b)1281.35 m处的粒度频率分布；(c)1455.42 m处的粒度频率分布；(d)1452.9 m处的粒度频率分布.

Fig 10 Grain size frequency distribution spectrum

(a) Frequency distribution of grain size at 1280.23 m; (b) Frequency distribution of grain size at 1281.35 m; (c) Frequency distribution of grain size at 1455.42 m; (d) Frequency distribution of grain size at 1452.9 m.

从图 9和图 10中可知，预测结果与实际粒度测量累计概率分布与概率分布曲线趋势基本吻合，对上述四个岩心所得结果进一步对粒度参数分析，如表 4所示：预测粒度与实测粒度中值粒径在1280.23 m与1452.9 m一致，在1281.35 m与1455.42 m略有偏差；平均粒径相差最大为0.0386 mm，相差较小；峰度值预测数据与实测数据均在0.45到1.0之间，说明频率分布曲线较平坦，两者之间吻合较好；分选系数均在0.2到0.5之间，分选较好，两者相差较小；偏差基本小于零，预测粒度与实测粒度均往粒度较细方向偏移.通过计算，4块岩心的中值粒径、平均粒径、峰度、分选系数、标准离差的平均相对误差分别为0.142、0.114、0.328、0.159、0.120.综上，认为预测数据与实测数据吻合较好，因此将预测应用到整口井中，图 8为应用到整口井的粒度二维分布预测.粒度二维概率分布在各个深度段内分布特征不一致，可依据此分析沉积环境及水动力条件.

表4 四个深度点粒度实测数据与预测数据的粒度评估参数

Table 4 Granularity evaluation parameters for measured and predicted data at four depth points

预测数据
深度/m	中值粒径/mm	平均粒径/mm	峰度	分选系数	标准离差	偏差
1280.23	0.125	0.1263	0.5968	0.3559	-0.07816	-0.0114
1281.35	0.105	0.1487	0.9096	0.3559	-0.09992	-0.2164
1455.42	0.105	0.115	0.4536	0.4181	-0.05789	-0.1112
1452.9	0.088	0.1097	0.5916	0.2994	-0.08202	-0.1258
实测数据
1280.23	0.125	0.1327	0.6769	0.4971	-0.07932	-0.0566
1281.35	0.177	0.1873	0.5907	0.4200	-0.10346	-0.0701
1455.42	0.125	0.122	0.5394	0.3523	-0.08914	0.02022
1452.9	0.088	0.0957	0.6049	0.2953	-0.07602	-0.04908

5 结论

(1) 本文比较了10种不同的机器学习方法，以自然电位、声波、井径、补偿中子、自然伽马、地层真电阻率、深侧向电阻率、微侧向电阻率和浅侧向电阻率等9种测井参数作为输入数据，以二维粒度分布作为输出数据进行测试.利用决定系数越大、平均绝对误差及均方根误差越小，模型效果越好，优选出了基于自动超参数优化框架的梯度提升决策树方法对整口井进行粒度二维分布预测.对比分析表明，自动超参数优化框架和梯度提升算法相结合的机器学习方法对地层粒度分布预测的精度明显高于传统的机器学习方法预测效果.

(2) 为了能更好地检验预测效果，随机选取预测粒度数据与实测粒度数据进行粒度参数分析，结果显示，预测粒度数据与实测粒度数据累计频率分布与频率分布均吻合较好，中值粒径、平均粒径、峰度、分选系数、标准离差的平均相对误差分别为0.142、0.114、0.328、0.159、0.120，说明预测数据与实测数据相差很小，基本一致.

(3) 对整口井进行粒度二维概率分布预测，得到各个深度段内的粒度分布特征，本文研究成果对其他地区地层的二维粒度分布的预测具有借鉴意义.

感谢审稿专家提出的修改意见和编辑部的大力支持！

References

Publishing order | Descend order by publishing year | Descend order by cited within

Alizadeh

, Rahmati

, Najafi

. A novel approach by integrating the core derived FZI and well logging data into artificial neural network model for improved permeability prediction in a heterogeneous gas reservoir. Journal of Petroleum Science and Engineering, 2022, 241: 110573.

模态框（Modal）标题

Abstract

Cite this article

0 引言

1 方法原理

1.1 自动超参数优化框架(Optuna)原理

1.2 XGBoost原理

1.3 LightGBM原理

1.4 基于Optuna与梯度提升算法融合的机器学习方法

图1 Optuna+LightGBM与Optuna+XGBoost预测数据流程

表1 历史最佳分数及超参数组合

2 试验数据

2.1 数据来源

表2 测井曲线统计表

2.2 数据预处理

图2 粒度数据属性分布图

图3 粒度及部分测井数据属性分布图

3 模型的选择

图4 data_1试验模型相关系数

图5 data_2试验模型相关系数

图6 模型的均方根误差

图7 模型的平均绝对误差

4 实验结果及分析

表3 埕岛油田某区块整口井测井曲线统计表

图8 整口井的粒度二维分布预测

图9 粒度累计概率分布曲线

图10 粒度频率分布谱

表4 四个深度点粒度实测数据与预测数据的粒度评估参数

5 结论

References