海南岛1605年历史地震的海岸沉积记录

张振克, 孟红明, 王万芳, 李彦明, 尤坤元, 余克服

张振克, 孟红明, 王万芳, 李彦明, 尤坤元, 余克服. 海南岛1605年历史地震的海岸沉积记录[J]. 海洋地质与第四纪地质, 2008, 28(3): 9-14.
引用本文: 张振克, 孟红明, 王万芳, 李彦明, 尤坤元, 余克服. 海南岛1605年历史地震的海岸沉积记录[J]. 海洋地质与第四纪地质, 2008, 28(3): 9-14.
ZHANG Zhen-ke, MENG Hong-ming, WANG Wan-fang, LI Yan-ming, YOU Kun-yuan, YU Ke-fu. PRELIMINARY STUDY ON THE COASTAL SEDIMENTS RECORDS ABOUT THE HISTORICAL EARTHQUAKE IN THE YEAR OF 1605, HAINAN ISLAND, CHINA[J]. Marine Geology & Quaternary Geology, 2008, 28(3): 9-14.
Citation: ZHANG Zhen-ke, MENG Hong-ming, WANG Wan-fang, LI Yan-ming, YOU Kun-yuan, YU Ke-fu. PRELIMINARY STUDY ON THE COASTAL SEDIMENTS RECORDS ABOUT THE HISTORICAL EARTHQUAKE IN THE YEAR OF 1605, HAINAN ISLAND, CHINA[J]. Marine Geology & Quaternary Geology, 2008, 28(3): 9-14.

海南岛1605年历史地震的海岸沉积记录

基金项目: 

国家自然科学基金项目(40676052,40572102)中国科学院边缘海重点实验室开放课题(MSGL0502)

详细信息
    作者简介:

    张振克(1963-),男,教授,主要从事地貌与沉积环境研究,E-mail:zhangzk@nju.edu.cn

  • 中图分类号: P736.21

PRELIMINARY STUDY ON THE COASTAL SEDIMENTS RECORDS ABOUT THE HISTORICAL EARTHQUAKE IN THE YEAR OF 1605, HAINAN ISLAND, CHINA

  • 摘要: 海南岛铺前港湾地区1605年发生了华南历史记录的最强烈的地震,地震强度为M7.5,地震造成陆地沉陷成海。根据野外海岸地貌调查和海岸钻孔沉积物岩性特征与粒度、元素比值分析结果,对历史地震的海岸沉积记录进行了初步的研究,4个钻孔位于铺前港湾西岸博度村附近的小型古海湾,昌德、演丰附近的野菠萝岛和道学附近的红树林区潮间带,钻孔沉积记录显示铺前港湾内湾沉陷幅度为2m,存在明显的差异性,东寨港道学和野菠萝岛附近的钻孔岩心下部为泥状红土,属于成土的风化壳顶部,根据曲口半岛下山村附近的海岸调查,强海洋动力事件形成了高出现代高潮位3.0m的高位海岸混杂沉积体,可能与1605年地震下沉引发的类似海啸的沉积事件相关。
    Abstract: The serious earthquake in the year of 1605 occurred at Qiongshan in the region around Puqian Bay, northeastern Hainan Island, which was the most extensive earthquake recorded in the historical documents in South China with the seismic intensity of MT. 5. This historical earthquake resulted in the land subsidence and the formation of the Puqian Bay. According to the recent investigation of coastal landforms, sedimentary characteristics of the boreholes and the analysis results about the grain size and element ratios, a preliminary study on the coastal sedimentary records about the historical earthquake was presented in this paper. Four boreholes were located at the abandoned bay close to Bodu village and in the mangrove tidal flat near Changde village, Yeboluo Island and Daoxue respectively. The comprehensive analysis indicated the 2.0 m subsidence occurred at the inner part of the Puqian Bay. The boreholes at Daoxue and Yeboluo Island penetrated to the buried red soil, which was the terrestrial environment before the earthquake subsidence. The most interesting finding of coastal landform investigation along the Qukou Peninsula, mid-western Puqian Bay was the coastal gravel-sand deposit 3 m higher than the present high sea level, which was formed in the strong coastal dynamics and may be related to the influence of tsunamilike wave during the earthquake subsidence in the year of 1605. Further detailed study is needed for the analysis about the sediment chronology.
  • 玄武岩广泛分布于各种构造环境中,为地幔部分熔融的直接产物,其成分记录了岩浆源区、岩浆形成温度、压力及氧逸度等地幔深部过程的重要信息,是研究地球深部物质组成与动力学过程的重要岩石[1-2]。根据玄武岩的产出位置,可分为大洋中脊玄武岩、岛弧玄武岩、弧后盆地玄武岩、大陆弧玄武岩、洋岛玄武岩、洋底高原玄武岩、大陆板内玄武岩等。不同构造位置产出的玄武岩由于地幔源区及其经历的岩浆作用(部分熔融、结晶分异、同化混染)的不同,导致其成分具有不同的特征,所以利用玄武岩的这种成分差异可推导其形成的构造环境。前人根据玄武岩地球化学特征和构造环境的这种关系建立了一系列构造环境判别图,如Th/Yb-Ta/Yb图解[3]、Nb/Yb-Th/Yb图解[4]、Th-Hf/3-Ta图解[5]、Ti/1000-V图解[6]、Y-Cr图解[7]。但随着岩石地球化学分析测试技术的完善及推广,早先的部分构造判别图也暴露出使用元素种类较少、岩石数据较少、岩石数据区域性较强的缺点,这导致判别图受区域地质背景的影响较大而不一定适用于全球范围玄武岩判别[8-9]。正是这些限制,使得不同构造判别图解具有不同的应用范围和条件,不当的使用极易造成误判。同时,常规全岩地球化学分析可生成高维地球化学数据,但玄武岩的传统判别图仅能应用其中二至三维数据特征,造成大量有效信息被浪费[10]

    随着地质大数据的发展,可以对大量数据进行处理的机器学习成为地质大数据的研究热点[11]。与传统的研究方法相比,机器学习在数据分析中更加深入和全面[12]。机器学习是指利用计算机指定的算法,通过学习相关的经验数据,生成应用者所需要的模型,在面对新数据时,计算机可以根据模型对新数据做出判别[13]。在机器学习应用于地球化学领域的过程中,通过选择优胜算法,改进现有算法,计算机可以高效率地学习高维度地球化学数据从而获得极高的判别分类能力[2,14-17]。GEOROC数据库(https://georoc.mpch-mainz.gwdg.de/georoc)和PetDB数据库(https://search.earthchem.org)是目前使用较为广泛的岩石地球化学数据库,这两个数据库整合了各类文献中来自不同构造背景的火成岩岩石地球化学信息,数据查询方式多样,可支持大量下载,为机器学习的开展提供了可能[18-19]

    在各种玄武岩中,大洋玄武岩的形成经历的地壳混染作用比较少,经历的岩浆过程相对简单,同时其形成构造环境的判别对于恢复蛇绿岩(古老大洋岩石圈)形成环境具有重要意义。因此本文利用GEOROC和PetDB数据库,结合玄武岩在现代大洋中的产出构造背景,建立现代大洋中脊玄武岩(MORB)、岛弧玄武岩(IAB)、弧后盆地玄武岩(BABB)、洋底高原玄武岩(OPB)和洋岛玄武岩(OIB)数据集。结合已有机器学习方法,训练出高准确率的高维度大洋玄武岩构造环境判别模型,并尝试将这一模型应用于蛇绿岩中的玄武岩中,探讨机器学习方法在大洋玄武岩构造环境判别方向的应用可能。

    本文使用的样品数据全部来源于GEOROC和PetDB数据库,这两个数据库根据样品的岩性、成分、产出构造环境等,对数据库中样品数据进行了大致的分类。数据一般包括样品名称、岩石类型、采样位置、岩石成分(主量元素、微量元素、同位素)等信息。本文数据搜集、处理及建模流程如下(图1):首先下载所需玄武岩数据,对玄武岩数据进行初步的构造环境判别,筛选出属于现代大洋构造环境下的玄武岩数据并根据构造环境类别添加标签,然后对添加标签的数据进行质量筛查,剔除不符合要求的样品,确保机器学习的准确性,之后利用这些数据通过机器学习建立判别模型,如果模型准确,判别的准确率高,则将模型代入蛇绿岩数据中进行应用,以下详细描述各个步骤。

    图  1  基于机器学习的大洋玄武岩构造环境判别总思路流程图
    Figure  1.  Tectonic discrimination of oceanic basalt using machine learning

    本文挑选了相关构造背景下的火成岩数据并下载(下文将该数据称为原始火成岩数据)。其中,GEOROC原始火成岩数据共368 339条, PetDB原始火成岩数据共85 639条。在原始火成岩数据中,根据岩性描述并结合SiO2含量为45%~52%进行筛选,得到原始玄武岩数据,其中GEOROC共80660条,PetDB共45589条(图2a)。

    图  2  下载的全球玄武岩数据分布
    a:两个不同数据库的原始玄武岩数据分布图,b:数据筛选后以构造环境为分类标准的玄武岩分布图。MAR:大西洋中脊,EPR:东太平洋海隆,CIR:印度洋中脊,SWIR:西南印度洋脊,SEIR:东南印度洋脊,PAR:太平洋-南极洋脊,JdFR:胡安德富卡洋脊,1:阿留申俯冲带,2:汤加-克马德克俯冲带,3:安的列斯俯冲带,4:南桑德维奇俯冲带,5:爪哇俯冲带,6:日本-千岛俯冲带,7:伊豆-小笠原-马里亚纳俯冲带,8:夏威夷群岛,9:索科隆群岛,10:加拉帕戈斯群岛,11:圣菲利克斯群岛,12:复活节岛, 13:塔斯曼群岛。底图高程数据来自ETOPO1。
    Figure  2.  Global distribution of basalt in the world used in this study
    a: Global distribution of original basalt samples downloaded from two databases of GEOROC and PetDB, b: global distribution of selecting basalt samples of different tectonic setting. MAR: Mid-Atlantic Ridge, EPR: East Pacific Rise, CIR: Central Indian Ridge, SWIR: Southwest Indian Ridge, SWER: Southeast Indian Ridge, PAR: Pacific Antarctic Ridge, JdFR: Juan de Fuca Ridge, 1: Aleutian Trench, 2: Tonga Trench, 3: Antilles Trench, 4: South Sandwich Subduction Zone, 5: Sunda Trench, 6: Japan-Kuril Subduction Zone, 7: Izu-Bonin-Mariana Subduction Zone, 8: Hawaii Islands, 9: Socorro Islands, 10: Galapagos Islands, 11: San Felix Islands, 12: Easter Island, 13: Tasman Islands. The topography data are from the ETOPO1.

    根据构造环境,大洋玄武岩可分为大洋中脊玄武岩、洋岛玄武岩、岛弧玄武岩、弧后盆地玄武岩和洋底高原玄武岩5个类别,每一个类别相当于一个标签。计算机只有对同一标签下的玄武岩地球化学数据进行学习后才能得出该类玄武岩的地球化学成分特征与构造环境之间的关系,并通过训练得出判别模型。本文利用ArcGIS软件将样品采集位置投影到全球地形图上,通过样品位置与大地构造位置的关系确定其产出构造环境,为数据添加标签。为确保生成数据集的准确性,本文仅考虑具有明确产出构造背景的现代大洋玄武岩样品。筛选后得到GEOROC数据共39 045条,PetDB数据共30594条(图3a)。

    图  3  数据处理前后数据统计图
    a:数据处理过程大洋玄武岩数据统计图,b:数据清洗前不同构造类别大洋玄武岩统计图,c:数据处理后不同构造类别大洋玄武岩统计图。OIB:洋岛玄武岩,OPB:洋底高原玄武岩,MORB:大洋中脊玄武岩,IAB:岛弧玄武岩,BABB:弧后盆地玄武岩。
    Figure  3.  Histograms of the number of samples before and after data processing
    a: Histograms of the number of oceanic basalt sample, b: histograms of the number of oceanic basalt samples from different tectonic settings before data cleaning, c: histograms of the number of oceanic basalt sample from different tectonic settings after data cleaning. OIB: ocean island basalt, OPB: ocean plateau basalt, MORB: mid-ocean ridge basalt, IAB: island arc basalt, BABB: back-arc basin basalt.

    在这些数据中,岩石地球化学成分是最关键的信息,每种成分指标可以看作机器学习时输入的一个特征,计算机通过对特征的学习建立玄武岩地球化学成分和构造环境的联系,从而生成判别模型。所以,数据的质量非常重要,直接关系到机器学习的结果。大洋玄武岩形成后,极易遭受海底热液改造及海底风化作用影响,导致其成分发生变化,降低机器学习模型的准确率,所以在建模过程中应剔除蚀变的样品。除此之外,由于玄武岩是喷出岩,有时会含有大量斑晶,过量的斑晶也会影响岩石成分,因此含有过量斑晶的样品也不适用于建模。以上这些不符合建模要求的样品可以通过数据样品的描述(样品蚀变程度)以及样品成分(烧失量及主量元素总量)有效筛查出来。但是,由于不同文献来源数据对于氧化铁(FeO,Fe2O3,FeOT,Fe2O3T)的表达有所差别,所以在数据质量筛查前需统一所有样品数据的主量元素列表。本文统一使用FeOT,其转化公式如下:FeOT = FeO + 0.8998 * Fe2O3;FeOT =0.8998 * Fe2O3T,主量元素总量SUM = SiO2 + TiO2 + Al2O3 + FeOT + CaO + MgO + MnO + K2O + Na2O + P2O5

    数据质量筛查包括以下方面:①通过样品描述,将发生蚀变的样品剔除;②通过数据中的烧失量(LOI)信息判断岩石新鲜程度,将LOI>2%的样品判断为经历了蚀变作用的不新鲜样品并剔除;③通过样品主量元素总量,判断样品新鲜程度,如对于MORB、OIB、OPB这些“干”岩浆系统,剔除主量元素总量 <98.5%的样品,而对于IAB、BABB这些“湿”岩浆系统,则剔除主量元素总量<97%的样品;④将主量元素总量>101%的样品判断为分析测试有问题并剔除;⑤将MgO>10.5%,TiO2>6%,CaO>15%的玄武岩数据剔除,排除堆晶或斑晶的影响。最终筛选得到的GEOROC数据共9346条,PetDB数据共24916条(图3a)。图3b、c展示了数据处理前后各类别大洋玄武岩的数据量,图1b展示了数据处理后用于下一步机器学习的大洋玄武岩分布图。

    由于样品的Mg#及Ti、K、P元素含量是指示岩石成因的重要地球化学指标,所以在建立最终机器学习数据集前还需要进行相关计算并补充。最后用于机器学习的玄武岩数据包括以下特征:主量元素 (SiO2,TiO2,Al2O3,FeOT,CaO,MgO,MnO,K2O,Na2O,P2O5)、Mg#、微量元素(Ti,K,P,Li,Be,B,Sc,V,Cr,Co,Ni,Cu,Zn,Ga,Rb,Sr,Y,Zr,Nb,Cs,Ba,La,Ce,Pr,Nd,Sm,Eu,Gd,Tb,Dy,Ho,Er,Tm,Yb,Lu,Hf,Ta,Pb,Th,U)和同位素(87Sr/86Sr,143Nd/144Nd,206Pb/204Pb,207Pb/204Pb,208Pb/204Pb,176Hf/177Hf)。

    我们将两个数据库中5个不同标签的数据分别进行合并生成总数据集(Basic_Data)。为了对比不同成分数据模型的构造判别能力,本文还分别提取主量元素、微量元素、主微量元素和同位素整理生成主量元素数据集(Basic_Data_ME)、微量元素数据集(Basic_Data_TE)、主微量元素数据集(Basic_Data_M&TE)、同位素数据集(Basic_Data_RI)。随后将每个数据集中的数据按照8∶1.5∶0.5的比例随机分配形成训练集、测试集、验证集。

    在实现机器学习的过程中,程序是不允许数据的特征中有缺失值存在的,但每个数据集中的数据都或多或少存在特征包含缺失值的情况。对于缺失值,本文的处理方法是:①找出数据缺失值所对应的特征,将这些特征按缺失值的数量从小到大排列,编写程序建立循环;②每个循环内把这次循环要填补的特征当作一个标签,剩下的所有特征(包含已填补的特征和尚未进行填补的特征)与标签构成一个特征矩阵,用随机森林回归填补进行数据填充,关于随机森林回归填补的原理前人[20]已做过详细解释;③特征矩阵里的缺失值暂时用中位数填充,在后面的循环中会将随机森林回归得到的数值填进用中位数填补的数据当中,之后重复以上步骤,直到所有数据都填补完成。数据填补之后,需进行特征工程处理。特征工程处理后的数据可以决定机器学习模型分类的上限,使机器学习结果更加准确[21]。Python下Scikit-Learn库提供了特征工程处理工具,可对数据进行归一化和标准化处理。

    高效的算法是建立高准确率判别模型的关键,本文选择了具有简单、容易实现、计算成本小[13]的随机森林算法(RF)和作为机器学习主流技术的支持向量机算法(SVM)构建模型。随机森林(RF)是在结合多个决策树算法的基础上,数据集被随机有放回过程的选出新的子数据集,并在子数据集中选出部分特征作为判别子节点从而实现数据分类的一种集成学习算法[22];而支持向量机(SVM)是一种将数据特征非线性映射到高纬度特征空间,并通过在特征空间中形成构造线性决策曲面从而实现数据分类的算法[23]

    确定算法后,将训练集的数据代入算法中训练并生成模型。为了使模型具有更好的分类效果,本文利用验证集数据调整模型的超参数,最后利用测试集检验模型在实际使用过程中的泛化能力,使用训练集准确率作为评估模型最终分类效果的指标。准确率即被正确分类的数据量与数据总量之比。

    建立现代大洋玄武岩的机器学习模型后,本文尝试将这些模型应用于古老大洋玄武岩(产于蛇绿岩中玄武岩)构造环境判别来评判模型的应用前景。用于机器学习预测的蛇绿岩数据来自PetDB数据库中的Ophiolite数据集,原始蛇绿岩数据共4129条,筛选出玄武岩类型的数据共140条,数据处理的过程按照本文1.2—1.4节的方法进行操作,经过数据处理后符合要求的蛇绿岩数据为34条。我们将蛇绿岩数据代入不同数据集和不同算法形成的模型中,并将预测结果与原文献结果进行对比,计算出蛇绿岩按照现代大洋玄武岩构造环境细分类(MORB、IAB、BABB、OIB、OPB)的预测准确率和按照构造环境大类分类(大洋中脊的玄武岩MORB、俯冲相关的玄武岩IAB和BABB、板内玄武岩OIB和OPB)的预测准确率。

    本文采用准确率(表1)评判模型对大洋玄武岩构造环境进行判别。准确率(Accuracy)代表的是被正确预测的样本数与样本总数的比值。从表1可以看出,不同的数据集有不同的准确率,但SVM和RF算法的准确率都可以达到0.9以上。表2展示了用机器学习判别模型对蛇绿岩按照现代大洋玄武岩细分类和构造环境大类分类标准判别的准确率。可以看出,对于细分类模型,不管哪一种算法,其准确率都很低;而对于构造大类分类模型,其准确率有所提高,但无法达到现代大洋玄武岩构造判别的水平。

    表  1  SVM、RF算法下现代大洋玄武岩分类模型准确率
    Table  1.  Accuracy of modern oceanic basalt classification models using SVM and RF algorithms
    Basic_DataM&TEMETERIAverage
    SVM0.940.9490.9790.9520.9750.959
    RF0.9970.9940.9140.9930.9820.976
    下载: 导出CSV 
    | 显示表格
    表  2  蛇绿岩中玄武岩构造环境预测准确率
    Table  2.  Prediction accuracy of ophiolite using SVM and RF algorithms
    Basic_DataM&TEMETERIAverage
    细分类模型SVM0.2060.2350.0590.2940.2060.200
    RF0.1180.2650.0880.2940.2650.206
    大类分类模型SVM0.7650.8240.7650.7940.7650.783
    RF0.7060.7940.7060.8530.7650.765
    下载: 导出CSV 
    | 显示表格

    为了探讨构造判别图解与机器学习对于现代大洋玄武岩的形成构造环境判别能力,本文选择了两个较为常用的构造判别图解:Shervais[6]提出的Ti/1000-V判别图解和Wood[5]提出的Th-Hf/3-Ta判别图解,将本文生成的现代大洋玄武岩数据集中的部分数据投图到这两幅判别图解上,对比这两个构造判别图解与机器学习生成的判别模型的准确率。

    Ti/1000-V图解的原理在于V元素在硅酸盐体系中可以以V3+、V4+或V5+存在,而Ti仅以Ti4+的形式存在,V元素的矿物-熔体分配系数会随氧逸度变化,因此岩石的V含量可以大致反映岩浆形成及演化过程的氧逸度。更重要的是,Ti和V在热液蚀变过程中是不活动的,并且在中高级变质过程中也是稳定的。而Th-Hf/3-Ta判别图解的原理在于Th、Hf和Ta这些不相容元素在不同构造环境中其分配系数不同。这些构造判别图解所使用的元素为流体不活动元素,对风化和蚀变甚至一些变质过程都相对不敏感。所以这两个图解被认为可以有效区分由于源区成分及熔融环境不同而产生的不同成分的玄武岩,如MORB、IAB和OIB。本文选取了数据处理后的现代大洋玄武岩数据集中IAB、MORB、OIB中Ti-V 和Th-Hf-Ta未出现空值的数据进行投图(图4),并计算了各图解不同构造环境的准确率。可以看出,Ti/1000-V图解中IAB和OIB都有一部分落在MORB的区域内,因此准确率相对较低;Th-Hf/3-Ta图解中大部分IAB落在对应区域内,部分OIB落在MORB区域内,两个图解相比Th-Hf/3-Ta图解准确率相对较高。

    图  4  现代大洋玄武岩数据集IAB、MORB、OIB数据在Ti/1000-V图解和Th-Hf/3-Ta图解上的投影
    括号中列出图解对现代大洋玄武岩的判别准确率。IAB:岛弧玄武岩,MORB:大洋中脊玄武岩,OIB:洋岛玄武岩。
    Figure  4.  Projection of IAB, MORB, and OIB data on the Ti/1000-V and Th-Hf/3-Ta diagrams
    The accuracy is shown in bracket. IAB: island arc basalt, MORB: mid-ocean ridge basalt, OIB: ocean island basalt.

    判别图解的准确率代表落入区域的数据个数除以该类别数据总数,机器学习的准确率等于正确分类的数据总量除以全部数据总量。为使机器学习建立的模型可以更有效地与判别图解对比,本文采用RF算法下各数据集的精确率(Precision)、召回率( Recall)和二者调和平均数 F1 分数(F1 Score)评价模型分类效果。精确率等于被模型正确判断为某一类别的样本数除以被模型判断为该类的总样本数,体现了模型对阴性样本的区分能力,即精确率越高,模型区分能力越强;召回率等于被模型正确判断为某一类别的样本数除以该类别的总样本数,体现了分类模型对阳性样本的判别能力,即召回率越高,模型判别能力越强;F1分数是精确率和召回率的调和平均数,F1 得分越高,模型对数据分类状况越稳健。从表3总体来看,除ME数据集外,其他数据集对各类别玄武岩的判别能力比图解更强,且区分程度高,分类状况稳健。与传统的二维或三维图相比,机器学习利用了更高维度的数据对构造环境进行判别,且使用的数据来自于全球各地,与构造判别图本身相比,机器学习判别适用范围更广。因此机器学习更优于判别图。

    表  3  RF算法下各数据集的分类精确率、召回率与F1分数
    Table  3.  Classification accuracy, recall, and F1 score of each dataset using RF algorithm
    BABBIABMORBOPBOIB数据集
    精确率110.9910.99Basic_Data
    召回率0.990.9910.960.99
    F1分数0.990.9910.980.99
    精确率10.990.990.980.99M&TE
    召回率0.980.9910.920.99
    F1分数0.990.990.990.950.99
    精确率0.820.840.90.920.91ME
    召回率0.590.780.970.50.91
    F1分数0.690.810.930.650.91
    精确率0.990.990.990.980.99TE
    召回率0.970.9910.930.99
    F1分数0.980.990.990.960.99
    精确率0.960.970.990.990.98RI
    召回率0.970.960.990.940.97
    F1分数0.970.960.990.960.96
    下载: 导出CSV 
    | 显示表格

    机器学习在现代大洋玄武岩的构造环境判别中具有较高的准确率,下文将探讨机器学习判别模型在蛇绿岩中应用结果。在机器学习对蛇绿岩的准确率判别结果中可以看出,用机器学习判别模型对蛇绿岩按照现代大洋玄武岩细分类标准判别的准确率与文献结果有极大的出入(表2)。最可能出现这种情况的原因是由于部分文献将蛇绿岩的原构造环境划分为弧前盆地玄武岩(FAB),但在本次机器学习中并未让计算机训练此种类别,这是由于经过数据预处理环节后符合建模要求的FAB数据仅剩153条,与其他5种类型玄武岩相比数据较少,这将导致模型对FAB的判别能力、对FAB和其他5种类型玄武岩的区分程度、判别过程中模型的稳健度这3个指标下降,进而使模型整体准确率下降。为了解决这个问题,我们将建立的现代大洋玄武岩数据集按构造环境大类进行合并重新归类,划分为以下3种类型:大洋中脊玄武岩(MORB)、俯冲相关玄武岩(IAB和BABB)以及板内玄武岩(OIB和OPB)。文献中的FAB很明显也是属于俯冲相关玄武岩,其成分与俯冲相关的其他玄武岩相似,富集大离子亲石元素,亏损高场强元素[24-25]。合并后机器学习判别模型的准确率明显上升(表2)。

    机器学习判别模型在蛇绿岩中应用的准确率低的另外一个原因可能是,本次预测准确率计算是假定数据来源的研究所恢复的蛇绿岩形成环境为真实值。然而,这些研究部分是通过传统构造判别图对蛇绿岩中玄武岩的构造环境进行判别而得到的[26-28]。原文献中利用的判别图放到其他文献的数据中并不能完全适用(图5),因此机器学习和文献本身出现的判别差异也有可能是使用了局限性较强的传统构造判别图导致。同时,蛇绿岩作为残留的古老大洋岩石圈,在构造环境的恢复上依然存在很大困难,其原因可能是洋壳从形成到闭合的过程中经历了不同构造体制下的软流圈熔融、壳幔分异、地表风化、热液蚀变甚至变质等多重作用,从而导致其在化学成分上的改变[29],使其难以与现代大洋玄武岩成分直接对比。

    图  5  本文使用的蛇绿岩数据在Ti-V及Th-Hf/3-Ta判别图上的投影图
    MOR:大洋中脊,SSZ:超俯冲带。
    Figure  5.  The Ti-V and Th-Hf/3-Ta diagrams for ophiolite data used in this study
    MOR: mid-ocean ridge, SSZ: supra subduction zone.

    本文在建模过程中发现,特征在机器学习中占据重要作用,但特征数量的增加往往不一定能给模型带来性能上的提升。高维的数据可能会导致维度灾难,即随着维度的增高,模型效果会随着维度的增高而降低的现象。高维度数据集会使构建的模型复杂度增加而导致准确率下降。增加模型的复杂度的确可以提高拟合度,但容易导致数据的过拟合,致使该模型的预测力大幅降低。特征数量过多会使得部分特征成为冗余特征。为了避免过多的特征带来的问题,需要对特征进行筛选,选出重要特征,消除无用、冗余特征,这被称为特征选择[30]

    特征选择首先需要进行特征重要性评估,特征重要性评估的一个重要指标是基尼不纯度,即根据节点中数据的分布对其进行分类时,从节点中随机选择的数据被分错的概率。随着分类节点的增多,平均加权基底不纯度将会减少,也就是分类错误率减少。随机森林中的特征重要性表示在该特征上拆分的所有节点的基尼不纯度减少的总和。重要性度量数值越高代表基尼不纯度减少总和越高,这个特征对应分类节点的错误率也就越低。特征重要性评估能够选择稳健的特征,减少待提取特征数量,同时还能够提高分类算法泛化能力[31]

    以RF算法下准确率Basic_Data数据集为例进行特征重要性度量,表4列出了Basic_Data数据集所有特征的重要性度量指数。从该表可以看出排名第25的特征往后,重要性度量指数已经小于0.01,应该舍弃,否则可能会对训练造成噪声干扰,造成准确率下降。

    表  4  特征重要性度量
    Table  4.  The feature importance metric
    排名 特征 特征重要性度量 排名 特征 特征重要性度量 排名 特征 特征重要性度量
    1 Pb208/Pb204 0.0997 19 Gd 0.0182 37 Ba 0.0013
    2 Pb206/Pb204 0.0848 20 Pr 0.0157 38 Ni 0.0012
    3 Sr87/Sr86 0.0845 21 La 0.0143 39 Sm 0.0011
    4 Nd143/Nd144 0.0826 22 Nd 0.0124 40 Zr 0.0011
    5 Ta 0.0689 23 Nb 0.0112 41 FeOT 0.0011
    6 Li 0.0529 24 Dy 0.0108 42 SiO2 0.001
    7 Ga 0.0492 25 Eu 0.0104 43 P2O5 0.0009
    8 Cs 0.0458 26 Sc 0.0096 44 Al2O3 0.0009
    9 Lu 0.0443 27 Ce 0.0072 45 K2O 0.0009
    10 Pb 0.0432 28 Co 0.0063 46 K 0.0008
    11 Tm 0.0352 29 Cu 0.0057 47 MgO 0.0008
    12 Yb 0.03 30 Sr 0.0048 48 CaO 0.0006
    13 U 0.0264 31 Zn 0.0046 49 Rb 0.0006
    14 Tb 0.0209 32 Th 0.002 50 Y 0.0006
    15 Pb207/Pb204 0.0204 33 Ti 0.0017 51 Mg# 0.0005
    16 Er 0.0193 34 Cr 0.0017 52 Na2O 0.0005
    17 Hf 0.0189 35 TiO2 0.0015 53 P 0.0004
    18 Ho 0.0187 36 V 0.0014 54 MnO 0.0004
    下载: 导出CSV 
    | 显示表格

    本文利用GEOROC和PetDB数据库的数据,经过一系列的数据预处理,建立了现代大洋玄武岩的数据集,并通过机器学习方法建立了大洋玄武岩构造背景判别模型。建模结果显示,不同数据集下模型的准确率会有不同,但综合来看,机器学习方法下模型对于现代大洋玄武岩的判别能力、区分能力、判别的准确度都是优胜于传统的判别图解。其原因可能是机器学习相比较于传统的构造判别图解利用了更高维度的数据且数据具有全球性。

    为了探讨机器学习方法建立的大洋玄武岩构造背景判别模型在蛇绿岩中的应用前景,本文还利用模型对PetDB搜集的来自全球蛇绿岩中的玄武岩形成构造环境进行预测。预测结果与文献研究恢复的蛇绿岩形成构造环境有一定的差异,这可能与蛇绿岩中玄武岩经历的地质作用复杂,导致其成分发生变化等因素有关。该工作还有待进一步补充更多的蛇绿岩数据并利用特征重要性评估后挑选重要特征进行建模。

    致谢:在本文数据处理及机器学习建模过程中奇安信安全技术有限公司陈海健工程师给予了建设性意见,两位审稿人为本文的改进提供了很大的帮助,在此一并表示感谢。

  • 期刊类型引用(1)

    1. 王浩然,李晨伟,钱裕杰,于成,曾敏. 基于机器学习的高镁安山质岩石类型的多元判别分析. 成都理工大学学报(自然科学版). 2025(01): 44-63 . 百度学术

    其他类型引用(0)

计量
  • 文章访问数:  1601
  • HTML全文浏览量:  116
  • PDF下载量:  13
  • 被引次数: 1
出版历程
  • 收稿日期:  2007-11-18
  • 修回日期:  2008-02-21

目录

/

返回文章
返回