四川盆地川东南地区为浅水–深水陆棚沉积环境,区内烃源岩发育,烃源岩富含大量有机质,最开始采用化学方法进行分析和判定,但是评价结果难以满足日益增长的生产需求,所以有机碳含量(TOC)计算模型作为一种有效的识别方式得到了广泛的应用。本文利用交会图法选出贡献率高的三条测井曲线:声波时差、自然伽马和深侧向电阻率,然后输入三条测井曲线值建立有机碳支持向量机回归预测模型。结果表明:有机碳含量在0.5以上时预测效果较好,当有机碳含量低于0.5时模型的精确度还需提高。 The southeast area of Sichuan Basin is a shallow-deep-water shelf sedimentary environment, where source rocks are developed and rich in organic matter. At first, chemical methods are used to analyze and determine the source rocks, and the source rocks are rich in organic matter. However, the evaluation results are difficult to meet the increasing demand for production, so the (TOC) calculation model of organic carbon content has been widely used as an effective identification method. In this paper, three log curves with high contribution rate are selected by cross plot method: acoustic time difference, natural gamma and deep lateral resistivity. Then three log curves are inputted to establish organic carbon support vector machine regression prediction model. The results show that the prediction effect is better when the organic carbon content is above 0.5, and the accuracy of the model needs to be improved when the organic carbon content is lower than 0.5.
——以川东南地区为例
张萌1,吴骐1,于淼1,熊宇康1,王昆2
1西南石油大学地球科学与技术学院,四川 成都
2中石化南方勘探公司勘探开发研究院,四川 成都
收稿日期:2019年4月4日;录用日期:2019年4月19日;发布日期:2019年4月26日
四川盆地川东南地区为浅水–深水陆棚沉积环境,区内烃源岩发育,烃源岩富含大量有机质,最开始采用化学方法进行分析和判定,但是评价结果难以满足日益增长的生产需求,所以有机碳含量(TOC)计算模型作为一种有效的识别方式得到了广泛的应用。本文利用交会图法选出贡献率高的三条测井曲线:声波时差、自然伽马和深侧向电阻率,然后输入三条测井曲线值建立有机碳支持向量机回归预测模型。结果表明:有机碳含量在0.5以上时预测效果较好,当有机碳含量低于0.5时模型的精确度还需提高。
关键词 :烃源岩,有机碳,四川盆地,支持向量机,交会图法
Copyright © 2019 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
烃源岩最开始采用化学方法进行分析和判定,但是由于岩心样本数量少,分析难度大,耗时长,评价结果难以满足日益增长的生产需求,所以有机碳含量(TOC)计算模型作为一种有效的识别方式得到了广泛的应用。总有机碳含量(TOC)是判断烃源岩的一个重要参量,我们可通过TOC值来确定油气资源储量。常规识别烃源岩TOC的测井识别标准为“高自然伽马、高电阻率、高声波时差、高中子值、低密度值” [
川东南地区(图1)位于扬子板块中南部、黔中隆起北的北部坳陷,雪峰山古陆的西部,川中古陆的东部,构造上属于川东弧形高陡褶皱带和川南帚状低陡褶皱带的一部分 [
图1. 研究区概况图
总有机碳含量(TOC)是判断烃源岩的一个重要影响因素。因烃源岩富含大量有机质,所以其测井曲线在声波时差、电阻率、自然伽马、中子值和密度值等指标更为敏感,从铀、钍等元素含量测定其总自然伽马放射性强度为136 API~200 API;有机质的存在使得岩类的许多指标发生变化,如电阻率的升高、声波时差的升高、岩石密度的减小等、其电阻率为105 Ω∙m~1015 Ω∙m、声波时差大约为571 μs/m、与普通泥岩相比烃源岩密度较小,与围岩相比烃源岩密度较大大约为1.1~1.6 g/m3,其中声波时差和密度受井壁和重矿物的影响较大;测得岩石干酪根含氢指数大约为67.0% [
交会图法是一种常用的岩性识别方法。将两种或多种数据通过在平面图上交会,其交会点的坐标可以比较大致地定出岩性变化的范围。在测井实际生产解释的过程中,已经有研究成果表明,对烃源岩敏感的测井曲线有自然伽马(GR)、伽马能谱(SL)、补偿中子测井(CNL)、深侧向电阻率(RLLD)、声波时差(AC)、密度(DEN)等,利用测井曲线对有机质的敏感程度不同是合理有效分辨烃源岩的资料基础。所以为了更好的对烃源岩的识别,通过对测井曲线与TOC含量的交会图法,得出对于烃源岩判别贡献率高的测井曲线,并根据判别结果建立SVM回顾预测模型。
利用交会图法分析对比烃源岩的相关测井曲线与有机碳(TOC)的联系,如图2所示。可以看到富含有机碳的泥岩层密度较小,声波时差相对较大;而普通泥岩层声波时差相对较小,密度较大。但密度受到黏土矿物和压实作用的影响较大,与有机碳含量相关程度并无太大关联。泥岩层易吸附有机质,有机碳含量较高吸附了高放射性的铀,所以在自然伽马上较容易分辨。对于中子测井而言,烃源岩中的大量氢聚集在页岩骨架和干酪根上,二者相互替换,所以中子曲线上不会存在较大差异,与有机碳含量相关程度低。泥岩层导电性较好,通常表现为低电阻,若含有表现为高电阻率的有机质,则会更加容易区分无关泥岩或低含量有机质泥岩,所以电法测井也是重要的参考标准之一,但是因为自然电位测井受到井径,地层等因素的影响相关程度数值波动大。所以通过对相关测井曲线的分析和交会图法识别程度,可以得到自然伽马,深侧向电阻率和声波时差对于含有机碳的烃源岩影响成分最大,对后续成分分析的回归预测具有重要意义。
图2. 交会图法优选测井曲线
SVM判别方法的准确性直接取决于核心函数参数γ和惩罚因子C的选择。核心函数γ能够有效地将高维度的映射转变成方便的点乘,核心函数还可以定义特征空间。选择恰当的核心函数,将研究数据映射到适当的样本空间中,才能将支持向量机性能提升到高值。惩罚因子C是用来权衡损失和分类间隔的权重,因子越大从而损失越大。假如不断提高因子数值,在一定程度上会实现将样本点完全正确的分类,但又会导致过度拟合使得泛化能力不足 [
通常情况下,通过交叉验证法的筛选可以得到最适合模型建立的相关参数 [
在具体的实验中通过程序随机地从101个样本数据中抽取80个作为训练集,其余的21个当作测试集。将测试数据归一化提高数据准确率后代入模型的建立,再运行程序可以得出训练集和测试集回归预测结果精度图,测试多次后寻找出最佳精度的参数γ和C。算法中利用平均平方误差性能函数mse和拟合优度R2来判断支持向量机回归预测有机碳含量的精确度。其中:
m s e = 1 N ∑ T = 1 N ( y c − y ) 2
得出mse为0.017077,通过mse可以评价数据的变化程度,mse的数值小,说明预测模型描述实验数据误差越小,更接近真实值。
R2是拟合优度,可以衡量回归方程整体的拟合程度,R2最大值为1,R2的值越接近1,说明回归直线对观测值的拟合程度越好,反之,R2的值越接近0,拟合程度越差。
R 2 = ∑ ( y c − y ¯ ) 2 ∑ ( y − y ¯ ) 2 或 R 2 = 1 − ∑ ( y − y c ) 2 ∑ ( y − y ¯ ) 2
其中, ∑ ( y − y ¯ ) 2 为总偏差, ∑ ( y c − y ¯ ) 2 为回归偏差, ∑ ( y − y c ) 2 为剩余偏差。实验得到的R2为0.93064,说明拟合程度很好,误差很小。
通过交会图法优选测井曲线:声波时差、深侧向电阻率、自然伽马。并将以上三条曲线的数值带入支持向量机中,采用5折交叉验证的方法优选支持向量机的参数。最终得到最优参数C = 8.5635,γ = 0.5267。选择出最佳的γ和C参数对后续建立回归预测模型有重要意义。
支持向量机(SVM)是基于结构风险最小原理和VC维理论的新型机器学习方法 [
支持向量机回归预测分析主要是分为对线性可分和线性不可分两种情况的进一步讨论 [
线性可分支持向量机处理的是严格线性可分的数据集。其分类超平面为 [
w * ⋅ x + b * = 0 (1)
相应的决策函数为:
f ( x ) = s i g n ( w * ⋅ x + b * ) 或 f ( x ) = s i g n ( ∑ i = 1 N a i * y i 〈 x i , x 〉 + b * ) (2)
其学习的优化问题为:
min w , b = 1 2 ‖ w ‖ 2 (3)
s . t . y i ( w ⋅ x i + b ) − 1 ≥ 0 , i = 1 , ⋯ , N
在上述可分样本集增加一个松弛变量。其学习的优化问题为 [
min ω , b , ξ 1 2 ‖ ω ‖ 2 + C ∑ i = 1 N ξ i (4)
s . t . y i ( ω i + b ) ≥ 1 − ξ i ; i = 1 , 2 , ⋯ , N ξ i ≥ 0 ; i = 1 , 2 , ⋯ , N
再引入核函数。分类决策函数变为:
f ( x ) = s i g n ( ∑ i − 1 N a i * y i k ( x i , x ) + b * ) (5)
f ( x ) = ω ⋅ ϕ ( x ) + b = ∑ i = 1 n ( a i * − a i ) K ( x i ⋅ x ) + b * (6)
式中: f ( x ) ——预测函数;
ω ——权数;
ϕ ( x ) ——非线性映射函数集合;
b——阈值;
a i * 、 a i 、b——可通过某点数值计算得到的模型参数 K ( x i ⋅ x ) 为核函数且满足下式:
K ( x i ⋅ x ) = exp ( 1 − | x − x i | 2 σ 2 ) (7)
使用最优参数 C = 8.5635 , γ = 0.5267 进行支持向量机模型训练,再用测试集测试模型的分类识别效果,导出结果如下:
图3. SVM预测模型训练集结果对比图
由图3可知,训练集回归预测结果拟合精度达到了0.93064,平均平方误差只有0.017077。TOC含量在0.38%~1.56%之间拟合效果较好,预测值绝大部分在拟合曲线上近似于真实值;TOC含量在0.08%~0.38%之间效果不是很好,预测值和真实值之间存在误差。
图4. SVM预测模型测试集结果对比图
由图4可知,测试集回归预测结果拟合精度达到了0.86942,平均平方误差只有0.010844。TOC含量在0.34%~1.47%之间拟合效果较好,预测值绝大部分在拟合曲线上近似于真实值;TOC含量在0.14%~0.34%之间效果不是很好,预测值和真实值之间存在误差。通过两个预测结果的对比分析可以看出,预测值和真实值在TOC含量小范围内存在着一定误差,程序的辨识度还有待于进一步的提高。
为了验证上述模型对川东南地区有机碳含量拟合的正确度,实验中选取一口该地区有机碳含量显示较好的井测试模型的精确性。XX井在井段1316 m~1370 m内测试了该区域的有机碳含量,因此在实验中选取本井段作为测试井段,实验中每隔20 cm取一个点,总共选取了240个点作为测试点。将测试点对应的自然伽马,深侧向电阻率和声波时差三条测井曲线值导入模型进行有机碳拟合,然后将实地测试的有机碳含量与支持向量机拟合的有机碳含量进行对比,结果如图5所示。
图5. XX井有机碳含量结果对比图
由图5可知,当有机碳含量在0.5以上时,支持向量机拟合的有机碳含量和实地测试的有机碳含量符合度较好,当有机碳含量大于1时,拟合程度最好。但是当有机碳含量小于0.5时,支持向量机拟合的有机碳含量较之实地测试的有机碳含量要高,拟合程度不是很好,与先前训练、测试支持向量机模型的结果一致。因此,想要使该模型在有机碳含量拟合方面有更好的推广价值,还需对支持向量机模型的相关程序进行进一步的改进,使其在有机碳含量较低时也有较好的拟合精确度。
以川东南地区茅口组一段为例,根据该地测井数据,利用交会图法选出贡献率高的三条测井曲线:声波时差、自然伽马和深侧向电阻率。将训练集和测试集通过支持向量机得到最优参数 C = 8.5635 , γ = 0.5267 ,从建立的支持向量机回归预测模型测试结果中得出结论:
1) 训练集与测试集的测试结果相差不大,且拟合度普遍较高,平均平方误差小,但对于含量偏低的数据测试不佳,测试模型还有所欠缺。
2) 经过实验测试,利用支持向量机拟合一定范围内的TOC值有较高的准确率,支持向量机不失为探测TOC值的新方法。
国家自然科学基金项目“四川盆地油钾兼探的地球物理评价方法研究”,编号“41372103”、“国家重点研发计划课题”,编号“2017YFC0602804”和“四川盆地深层钾盐勘探开发评价研究”,编号“2019YJ0312”联合资助。
张 萌,吴 骐,于 淼,熊宇康,王 昆. 支持向量机在回归预测有机碳含量中的应用研究——以川东南地区为例Prediction of Organic Carbon Content Based on Rendezvous Graph and Support Vector Machine Regression—A Case Study of Maokou Formation in Southeast Sichuan Province[J]. 地球科学前沿, 2019, 09(04): 230-237. https://doi.org/10.12677/AG.2019.94026