分享到:

回归自变量的选择:Cp准则所有变量子集的回归

应用回归分析处理实际问题时,选择适当的回归自变量是一个十分重要的问题。逐步回归方法〔‘二就是一种常见的选择回归变量的算法。但由于这种方法并不计算所有可能的变量子集的回归,并且每人选或剔除一个变量时,要作一次F检验,而事先确定的显著性水平二的大小直接影响到最后得到的回归子集,因此所得到的变量子集只是局部“最优’的,有可能遗漏全局“最优”的变量子集。1 Cp准则,所有可能变量子集的回归 c产统计量〔2,作为变量选择准则,正广泛地被采用。 设于xl,xZ,一x,冬为所有自变量,fx‘,,x,2,一x‘,冬为人选变量,其中i,,12,一i,是1,2,…,m的一个组合。 e;一天55,/泞’一(二一2,一2). 这里RS助为变量“‘:,x‘:,’’·,x,,对因变量Y作回归的残差平方和,叮’为用全部变量二:,:2,…,二二对Y作回归时,方差,’的最小二乘估计:。’一Rssm/(n一m一l),。为样本容量. 当n一用足够大,使(n一m一2)...  (本文共6页) 阅读全文>>

《数学的实践与认识》1990年02期
数学的实践与认识

多元方差分析中显著变量子集的筛选

亏L引言 方差分析从1923年R.A.Fishe:提出以来,已有60多年的历史,至今仍是统计学中重要而经典的方法.R.A.Fisher的方差分析只涉及单个变量.其后,1932年wilks·提出了最大似然比A统计量,把方差分析由一元拓广到多元情形.然而,众所周知无论在一元情形的五测验显著,还是在多元情形的A测验显著,只能表明水平均值或均值向量之间的差异显著,不能保证两两均值或均值向量之间的差异全是显著的.同时在多元情形卜水平均值向量乏间的差异显著,也不能保证它们对应的各个分量的水平均值之间的差异-都是显著的.因此,从提高统计分析效率出发,有必要把那些在试脸中反映不灵敏的分量从观察向量x中清除掉,以得到显著变量子集.本文基于这一思想,将显奢变量筛选的逐步方法引入到多元方差分析中.下面将会看到,这一方法在精简观测变量和提高检验的灵敏度方面都有重要的作用.52.原理及方法 1.多元方差分析 为简便记,本文只讨论单因素的多元方差分析.‘ ...  (本文共7页) 阅读全文>>

《中国公共卫生》1987年03期
中国公共卫生

危险状态分析法及其应用 (Ⅱ)在病例—对照研究和生存分析中的应用

危险状态分析法适用于任何类型的模型描述方法,它的特点之一是,先选择好变量子集 (这步工作无需任何模型假设),再拟合某种模型。限于篇幅,本文仅介绍危险状态的Lo名istie回归和cox回归分析。 (1)危险状态的Logitie回归分析 通过前面的分析,已经选择了预测变量子集,并得到形如(4)的状态列联表,以及各状态的交叉积差和统计量。我们约定,取最低水平构成的暴露状态y。为比较基准,相应的对数相对危险度日(y。)二o。这样,(s一1〕个状态变量s:,(y今y。)皆为(0,1)变量: rl,sr二。::、:=1 、0,若样本kg处于状态s丫否则危险状态的Logistic回归分析十分简单。a)非配对资料的无条件似然函数 非配对资料危险状态的无条件对数似然函数为(G二2;对照g=1,病例g=2):InL=乙{n之·‘np·+(n.·一,‘n“一p·)}(28)一乙以"乙﹄ +、a+ C r...Jr..LP PX ex一+e其中Pr日‘...  (本文共5页) 阅读全文>>

《数学的实践与认识》1987年03期
数学的实践与认识

回归模型的最佳变量子集合选择

为了探索客观经济过程的数量规律,在经济活动研究中,需要建立经济计量模型,而经济计量模型实质上是数理统计中回归模型的应用和发展.然而,在回归分析应用中,如何选择解释变量,确定最佳变量子集合,这是建立模型的关键性问题,也是一个比较困难的问题. 在回归模型建立过程中,通常由若干个变量二:,勺,…,‘来解释y,而这些变量之间存在着相关关系,即共线和近似共线问题,并且有一些变量对y值的贡献很小.通常进行回归分析处理时,都以复相关系数或者残差平方和为准则的拟合来判断模型的好坏. 当复相关系数砂较小时,明显的补救方法是增加解释变量,提高尸值.但是由于变量之间的多重共线性关系,会给各个变量的回归系数的估计值带来不稳定性,变量的抽样误差积累将使y值的估计误差增大,这样构造的回归模型稳定性差.特别是建立非线性回归少、模型时,解释变量越多,寻找这种非线性关系就更加困难,相应地如果模型遗漏了重要变量,可导致估计量产生偏倚性和不一致性。 为了获得较好的估...  (本文共7页) 阅读全文>>

《云南林业科技》1990年03期
云南林业科技

林业试验统计中多元回归模型变量子集合选择问题的研究

回归分析是最常用的林业试验统计方法,林业试验统计中的数学模型构造和模型外推通常采用回归分析方法解决。在多元回归分析应用中,如何选择合适的自变量(解释变量)确定最佳变量子集合,是建立回归模型的关键。选择合适的变量来建立回归方程数学模型,不是一件很容易的事。因为在多元回归模型中,有p个变量X,,X:,一,Xp来解释变量Y,而变量X,,X:,…,Xp之间存在着相关关系,即线性关系或近似线性关系,会给回归系数估计值带来不合理的解释。由此可见,要得到一个稳定的,可靠的回归模型,变量子集合的选择十分重要。一、回归模型变量子集合选择的目的 在林业试验统计多元回归模型建立的过程中,经常遇到的困难是多重共线性问题。多重共线性—即自变量之间存在的线性关系或近似线性关系,它的存在直接影响多元线性回归数学模型Y二X日+£中参数日的最小二乘估计。 我们求解回归方程实际上是采用最小二乘法对多元线性回归模型(1.1) 夕=日。+日:,:+…日,x,+e(1 ...  (本文共8页) 阅读全文>>

《应用概率统计》2015年01期
应用概率统计

多元回归中选择自变量的一种简单方法

§1.引目和主要结果设有线性回归模型y=E (L1)j=i其中;1)是非随机的自变量,y是可观测的因变量,e是不可观测的随机变量(随机误差),(3=(免,馬,…為广是未知的参数向量啁归系数),这里及下面用T表示“转置"?设参数/3的真值是/3*=(代,踢,...,^;)\很可能有一些巧=0,相应的变量巧对y无影响.令Jo^{j:li=1,2,...,n, (1-4)j=i从(1.1)知Yn=Xn(3*+£^. (1.5)本文中恒设矩阵是列满秩的.用淨叫…:^^⑷,芽^⑷,…,敌^^表示基于数据(X?,D釆用方法5得到的参数真值/3*的估计量.令又⑷={j:1这里Jo由(1.2)确定,又(5)由(1.6)确定;(ii)回归系数的估计量有很快的收敛速度,即ri —oo时^(|9(n)(5)-/3*)Jo AN(0,E),这里i表示依分布收敛,^^0,£)表示期望为0、协方差阵为S的多元正态分布,S的阶数等于的元素个数(记作#(Jo)...  (本文共18页) 阅读全文>>