若米知识 > 百科 > 变量选取

变量选取

导读spss怎么把多个变量选中?优质回答按住cotrol,一个个选或者按住shift点第一个,然后点最后一个,或者按control+a即可。SPSS分析变量时同时选中变量的方法:打开SPSS数据库,点击data-sel...

今天若米知识就给我们广大朋友来聊聊变量选择的方法,以下关于观点希望能帮助到您找到想要的答案。

spss怎么把多个变量选中?

优质回答按住cotrol,一个个选或者按住shift点第一个,然后点最后一个,或者按control+a即可。SPSS分析变量时同时选中变量的方法:

打开SPSS数据库,点击data-select,随后可以看到如下图所示的界面,每个条目的意思如下标注,假如我们需要选择契合度等于1的个案,那么首先点击第二个按钮,随后进行操作,然后点击OK即可。假如我们要随机选择个案,点击第二步中的第三个按钮。

可以输入需要个案的百分比,也可以是第二个,比如30个个案从前面的60个个案中suiji选择。还可以按照过滤变量进行选择,但是过滤变量必须是0,1编码的,最后保留的就是编码为1的个案,编码为0的都过滤掉了。

相关信息

1、超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。

2、改进的Autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。

3、改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。

怎样选用自由变量?

优质回答自由变量的选取原则如下:

1、尽量少选自由变量:一般来说,选取的自由变量越少,线性方程组的解就越容易求解,所以在选取自由变量时,应尽可能选择最少的自由变量。

2、选取性质相似的自由变量:在选择自由变量时,应优先选取性质相似的自由变量。例如,如果某个线性方程组中有多个出现在同一位置上的自由变量,最好选择其中数值大小相近的自由变量作为基础自由变量。

在线性代数中,为了求解线性方程组的解,常常需要用到“自由变量”的概念。通常来说,自由变量是指一个线性方程组中,在一个特殊的方程中,有某一个变量没有系数,或者系数为0的变量。

重要变量的选择

优质回答根据矿产资源评价成果的“四定”要求,资源位置预测和资源量预测是必须回答的两个性质不同的基本问题。位置预测要求研究资源体的空间分布规律对地质条件的依赖性。而资源量预测则要求研究影响资源量变化规律的地质因素。很明显,在定量计算时要选用不同的变量去解决不同的问题。此外,由于研究的目的各异,所使用的计算方法也就不同,而不同的计算方法对变量的性质也有不同的要求。但是在一般情况下最初设置的原始变量对此并没有加以区分,所以不能不加区分地用于评价。为完成不同目的的预测任务,重要变量的选择要分两步来进行。首先从原始变量中选取与研究问题有关的地质变量。第二为了保证在计算模型中仅保留起重要作用的变量,还要进行重要变量的筛选工作。

表9-13 描述性定量预测变量一览表

1.重要变量的初步选择

与研究问题有关的变量的选取工作是在原始变量的基础上进行的。它以已知矿田单元为研究对象,考察每个变量的统计特点,决定其与资源特征的关系,选择出可能参与定位预测和资源量预测的有关变量。定位预测变量的选择,要求变量在已知单元中应有统计性的良好反映;定量预测变量的选择,要求变量在不同等级规模的矿田单元中的反映有明显的差异,或者变量的取值规律应与资源量取值规律具有明显的相依关系。值得注意的是,为了使模型能直接外推,在已知单元考察的变量,应再考察其在未知预测单元中的取值特点。如果在未知单元反映不好,即使在已知单元中是用变量,也应将其去掉。

按上述原则选用20个项目,60个类目作为定位预测的初选变量。表9-7是20个项目构置成的定位预测变量表;表9-11是在20个项目的基础上构置的60个类目的变量表。

选用于资源量预测的变量分为描述性变量和连续型变量两种,其中描述性定量预测变量用于逻辑信息法作资源量规模预测,列于表9-13;连续型变量用于有矿单元资源量预测,其变量构置见表9-12。

2.变量的优化

经过初选的变量的地质意义清楚,与资源特征的关系明确,这对于变量的使用无疑是有意义的。但同时应该看到,初选时仅仅考察了单一变量与资源量的关系,因而也就看不到变量重要性的变化特点。为了建立最优计算模型,显然这些问题都要研究。实践证明,应用适当的数学方法解决变量的优化问题是行之有效的。研究过程中分别使用计算变量的权系数、变异序列方法对定位和定量预测变量进行优化,并确定了最终参与计算模型的地质变量。

(1)定位预测变量的优化:应用乘积矩阵矢量长度法和乘积矩阵主分量法计算变量的权系数,两者都是以计算变量间的匹配系数为出发点,不同的是用以度量变量的准则。前者把乘积矩阵的每一行中的平方根作为度量某个变量与其他变量关系密切程度的准则。其值愈大则与其他变量的关系愈密切,在刻划资源特征上的作用也就愈大。后者把资源特征视为地质变量联合作用的结果,每个变量都为这个结果的产生做出了贡献。但贡献的大小是有差异的,贡献大的显然作用大,反之亦然。从数学角度看,变量贡献大小的研究,可以归结为特征向量的计算。由变量选取原则不难判定,第一大特征值所对应的特征向量即表示了资源的总体特征。因此,可以把这个特征向量上的各个分量视为相应变量的重要性的参数。定位预测变量的二、三态赋值的计算结果列于表9-14和表9-15。

图9-25是14×20模型的变量权系数曲线图。变量权系数的大小是表征与其有关的矿化强弱的指标,权系数越大,该变量定义的地质因素在成矿过程中的作用就越大。由图看出,两种计算方法所得的变量权系数从大到小的排序相当一致,仅8、13号变量略有变异,这说明我们所构置的变量与所研究的地质问题的关系密切。其中,主分量法曲线主要是呈单调下降的,只是排序在后的两个变量突然变陡隆,表明与矿化作用密切程度急剧减弱,这两变量是剔除对象;矢量长度法曲线后两变量也有这种趋势,但不甚明显。为妥当计,只把7号变量筛选掉,保留其余19个变量参与下一步计算。

表9-14 14×20模型三态变量权系数计算结果表

表9-15 14×60模型二态变量权系数计算结果表

图9-26是14×60模型的变量权系数曲线图。排序1~28号和45~60号的诸变量两种计算结果的排序一一对应相同,其余变量的排序变异较大;此外,曲线在排序号42和52处出现两突变点。根据曲线特征,排序号1~28诸变量显然是应该保留的变量;而排序号在52~60的诸变量当予剔除;但是,排序号为29~51诸变量由于变异性较大,其弃留与否不能简单地依突变点行事,而是结合它们的地质意义及其在预测单元内的反映良好性确定的。

图9-25 14×20模型特征分析变量权系数曲线图

(2)描述性定量预测变量的优化:定量预测变量中的9个连续型变量的使用情况将在以后阐述。这里优化的是描述性变量,共25个(表9-13)。其中2号变量在模型单元中取值均为零,故首先剔除,其余24个变量所确定的8个标准模型单元构置的变异序列见表9-16。

变异序列是通过对两两变异序列的构形特点的异同计算出每个变量的变量权,并用此度量变量的重要作用。计算结果列于表9-17。

表9-17中第二列P(1)的值表示P(1)<0.5的个数;第三列为P(1)=P(0)=0.5的个数;第四列是P(0)>0.5的个数。每个变异序列所有可能的构形个数为S

n

。S表示按矿床规模分组的组内单元个数,n表示规模的级别数。在我们的规模分级和组内单元数分别是S=2;n=4,因此所有的可能构形共有16种。

根据计算结果,变量权值方向性特别明显者有17个;有一定方向性,且在预测单元中反映尚好的变量有3个;其他变量予以剔除。按此结果构置两套重要变量,第一方案17个变量,第二方案20个变量,详见表9-15。

图9-26 14×60模型特征向量法变量权系数曲线图

表9-16 8×24标准模型变异序列表

表9-17 8×24标准模型变异序列法变量权计算结果表

原始数据变量的选择方法

优质回答数据变量是构造样本的基本参数,不同的变量对所解决的问题所起的作用贡献不等,通常应选择作用大的变量,相关性好的变量。变量选择的目的是选出与研究目的有关的、最重要的变量,使变量的结构最优化(即使系统内变量个数尽可能少,且各变量独立,同时对主要信息没有多大损失)。这样不仅经济,而且能获得最佳的地质效果。

从众多的变量中筛选重要变量,必须以地质理论、物化探理论为基础,应用数学方法进行选择,而且不能只强调一个方面而忽视另一个方面,为此需注意如下问题:①由于地质现象的复杂性,各地区工作程度和研究程度不同,取值空间不一致,因此人们的认识必然会存在差异,学术观点也难免不同,这时要想选出合适的变量就要明确研究目的,兼顾各种观点,尽量多选变量,以免漏掉有用信息。②样本是统计分析的基础,需要十分注意样本中变量的代表性。要全面收集三度空间的变量资料,特别是深部资料,例如某些物化探资料和反映深部地质构造、地壳结构的资料。③通过数学方法选出的变量,有时会与研究对象密切相关的变量不一致,有的地质意义不明确,这就需要认真研究,明确其地质意义。同时谨防漏掉隐含意义的变量。对未被选上但地质意义明确,又确实与研究对象密切相关的变量,应查找原因,使其尽可能被数学方法选上。

(一)几何作图法

几何作图法可直观地显示变量与研究对象之间的关系以及变量与变量间的关系。它是根据直角坐标系中样本数据的散点凝聚趋势或离散特点决定变量取舍的方法。这种方法大致分两类。

1.点聚图法

该方法是把变量值点在直角坐标系中,视散点的凝聚趋势来考查变量间关系的方法。图6-15是变量y与x的点聚图,它清楚地表明,取值(x

k

,y

k

)(k=1,2,…,n)是沿着一条曲线分布的,它也表明x,y之间有密切关系。这时x可选作y的相关变量。图6-16是两个自变量x

1

,x

2

与一个因变量y的点聚图。它的作法与等值图的作法类似,即把x

1

x

2

看作一个地理平面或纵、横坐标。按(x

ij

)(i,j=1,2,…,n)两坐标的分度把对应的此值逐个标在x

1

x

2

平面上,构成y值数据图;并画出y值等值线图。若y值散布的趋势性明显,y等值线就随x

1

x

2

呈现规律性的变化,那么x

1

x

2

与y的关系就密切,说明x

1

x

2

对y的贡献大,可选作y的相关变量。否则关系不密切,不能作为相关变量。对于三个或三个的相关变量的选择,可采用逐步回归分析法。所述均属相关变量选择方法。若利用相关程度分类,则这些方法也可作为选择分类变量的方法。

2.数轴法

数轴法是在单一数轴或多条辐射状排列的数轴上标以点值,然后用某一个点值或多个数轴点值构成的多边形图来选择分类变量的方法。

图6-15 一个自变量的点聚图

图6-16 两个自变量的点聚图

(1)单数轴法

它是把已知且分别属于两总体的样品按某变量的值标在一条数轴(即一个变量轴)上,若两总体的散点聚能用数轴上某一点值分开,且区分率在70%,该变量即可作为分类变量。又如对两个变量的散点图,若通过某一条直线能把两总体的散点聚基本分开,区分率在70%时,这两个变量可选作分类变量,如图6-17(a)所示。

图6-17 数轴法

1~8为样品编号

(2)多数轴法(雷达图法)

以选择分类变量为例来阐明该方法的基本思想。假设在已知有矿及无矿的两类样品中每个样品取p个变量(x

1

,x

2

,…,x

p

),构作雷达图。作图方法:以O为原点,取适当长度(图面清晰即可)为半径画圆。将圆周分成p等分,连接圆心与等分点得p条辐射状的半径,以这p条半径作为p个变量的坐标轴,根据每个变量观测值的波动大小,对p条坐标轴分度。然后将每个样品中各变量观测值点于坐标袖上,连成p边形,每个p边形代表一个样品,分析对比两类总体所构成的p边形,以选择分类变量。现举一个假设的例子加以说明,设有8个岩体:1,2,3,4为已知含矿岩体;5,6,7,8为已知无矿岩体。在每个岩体内取n个样品,分析5个变量(TiO

2

,SiO

2

,FeO,CaO,K

2

O)的含量值。分别算出8个岩体5个变量的含量平均数,然后作成8个五边形的雷达图,如图6-17(b)所示。由图可以看出,区分两总体最好的变量是 SiO

2

和 FeO,其次是 TiO

2

和CaO。但仅依据TiO

2

和CaO就可能将有矿的4 号岩体错划成无矿岩体。若考虑变量组合SiO

2

TiO

2

CaO FeO在有矿岩体中的强相关性,从8个五边形分析,4 号岩体被判为有矿的可能性很大,此外,由图还可以看出,K

2

O无区分意义,予以删除。

(二)相关法

利用相关原理选择相关变量的方法较多,这里介绍秩相关系数法。对于简单相关系数法可参看(6-34)式和逐步回归分析法。

秩相关系数法又称等级相关系数法。所谓“秩”就是按变量x值由大到小的顺序排成序列(如果有n个数据的值相同,序号取它们对应的序号平均值),则每个数据的序号就称为该数据的“秩”。若需要算出变量x与y的秩相关系数,则应按照上述原则排成两个序列,然后用x、y的秩代替原始变量值,用简单相关系数公式计算,即可得到秩相关系数r:

放射性勘探方法

式中:d

i

为对比序列的秩差,且

恒等于0;n为对比序列的对数。

(三)秩和检验法

秩和检验法是依据某种变量在两个具有相同分布的总体中,其观测值是否有显著差异来区分两总体的。若差异显著,则该变量就可作为分类变量,否则不能选用。该法的基本假设是:在A、B两总体中,变量x的取值分别为

序列(i=1,2,…,n

1

;j=1,2,…,n

2

),如果概率

放射性勘探方法

成立,则两总体关于变量x无差异,即x无区分意义。若上式不成立,说明两总体有差异。差异是显著的,则x可选作A、B两总体的分类变量。

若x的大小用秩表示,由于x的大小在A、B两总体中随机出现,则两总体中,x对应的秩也随机出现。若两总体中,变量x的秩和没有显著差异,说明两总体相似。若有显著差异,说明两总体不相似。也就是说,用变量x可区分这两个总体。

检验步骤如下:①将来自两总体的数据混合起来,根据变量值,由小到大分两总体按秩排成两行;②计算样品数极少的那个总体的秩和,用T表示之;③根据两总体的样品数n

1

和n

2

以及给定的显著性水平α,查秩和检验表求出秩和上限T

2

和下限T

1

;④若T≥T

2

或T≤T

1

,则认为两总体有显著差异,x可选作分类变量。

通过上文关于变量选择的方法的相关信息,若米知识相信你已经得到许多的启发,也明白类似这种问题的应当如何解决了,假如你要了解其它的相关信息,请点击若米知识的其他页面。

本文来自网络,不代表本站立场,转载请注明出处:https://www.rm2g.com/baike/119157.html

作者: 若米知识

若米知识为您提供最全面的生活百科网站大全,主要为您提供数码、汽车、财经、美食、财经、科技、健康、教育、创业、电商、影视、百科等资讯信息,在这里可以找到您所需的答案,解决您所困惑的问题。
湖北顶板加固费用价格;湖北建筑加固多少钱
无犯罪公证书费用~无犯罪记录公证书一般要多少钱
联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@wangzhan.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部