摘 要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析; 因子分析; 独立成分分析; 数学建模;
数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介
(一)主成分分析
主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析
因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析
独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。独立成分分析法就是在大量的观测数据当中恢复、分离独立的数据信息。
主成分分析、因子分析以及独立成分分析方法都可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
二、三种统计分析方法在数学建模中的应用
(一)主成分分析法的应用
在某年数学建模夏令营当中有如下问题:对水资源风险的主要因子进行识别,对风险带来的危害进行等级划分,对不同风险的因子进行控制以便维护社会的和谐与稳定。根据水资源的相关信息,求得影响水资源短缺的主要风险因子,其影响因素包括工业用水、农业用水、气候条件、人口规模等等,根据已知的数据,利用降维的方式,通过主成分分析法进行研究分析。
首先,将影响因素的数据进行标准化,建立数据的标准化模型。然后对数据进行主成分的计算,再根据累计贡献率求得主成分因素。根据主成分当中各因子的数据,判断出影响水资源的主要因素。
(二)因子分析法的应用
在某年全国大学生数学建模竞赛当中有如下的问题:根据数据分析重金属污染的主要原因,究其根本就是求得产生重金属污染的因子,从而研究其原因,所以在这一问题当中可以用因子分析法。
以生活区域为示例,分析过程为:首先,求得生活区重金属之间的相关系数矩阵I,根据此矩阵并且利用SPASS软件将因子的特征值以及累积贡献率求出。根据分析可知当因子为6时的累积贡献率为91%左右,因此可以选6个成分因子来分析产生社区污染的因素。其次,再对旋转后因子载荷矩阵进行计算,从而判断因子对重金属的影响。
根据最终结果,可以判断出6个因子所对应的变量有哪些,同时说明造成生活区污染的主要原因。
(三)独立成分分析法的应用
在某年全国研究生数学建模竞赛当中有如下的问题:按照已知数据,如何根据基因和肿瘤的关系来选择出优秀的分类因素。我们可以把基因组作为区别正常人和肿瘤患者之间的分类因素,利用独立成分分析法基于数据进行分析,找出独立的基因组。
假定基因数据矩阵为1900个,均为相互独立的基因组信号,分析过程为:首先,将基因数据矩阵A进行中心化处理和白化处理过程。然后随机生成可逆的归一化初始矩阵B,并且对初始矩阵进行迭代运算。其次,当迭代完成之后,可以求得相互独立的基因组矩阵:X=AB。对基因数据矩阵以及求得的相互独立的基因组矩阵进行分析,从而找出独立的基因组[1,2,3,4]。
三、结束语
本文通过对三种统计分析方法在数学建模中的应用探析,使我们了解到了,多元统计分析方法在数据处理过程中得到了较为广泛的应用,而主成分分析、因子分析以及独立成分分析方法作为其基本的数据处理方法,在数学建模当中具有重要的应用。对于大量的数据而言,首先就是要进行降维、去相关等数据预处理过程,所以一定会用到三种统计分析方法当中的一种或者几种,因此,在具体的应过程中,要根据实际情况选择合适的分析方法,保证数据处理的正确性。
参考文献
[1]张玉洁,李超群,祁锐.三种统计分析方法在数学建模中的应用[J].数学的实践与认识,2019,49(4):312-320.
[2]商菲菲,周侠,马莲.数学函数模型在腭裂骨缺损形态分类中的应用[J].中华口腔医学杂志,2019,58(8):540-545.
[3] 重庆第二师范学院.基于潜变量模型的儿童个性化行为统计分析系统及方法:CN201910480497.4[P].2019-09-13.
[4]河海大学常州校区.一种基于统计信息的平均股骨模型构建方法:CN201510176248.8[P].2015-07-15.