分享到:

混杂因素

(一)什么是混杂因素? 研究疾病与暴露的相互关系时,往往受无关变量的影响所混淆而出现偏倚,这个无关变量叫混杂因素。 作为混杂因素的条件:一方面它是所研究疾病的一种病因或是与该病病因密切相关的变量因素(例如年龄、性别等),另一方面它又与所研究的暴露因素有关。 混杂因素的作用:它会造成暴露因素和所研究疾病之间相关关系的偏倚,致使我们会过高估计暴露因素与疾病之间的任何一种相关,特别是在所研究疾病和暴露因素之间不存在任何相关时,由于混杂因素的作用将使它们之间出现假的相关。 可作为混杂因素的变量较多,现例举几个:疾病暴露因素可能的混杂因素胰腺癌肺癌宫颈癌心肌梗塞烟草酒精烟草咖啡花牛肥胖酒精烟草性生活乱交烟草黄曲霉毒素爱吃糖癌齿肝龋 示例1:以一项病例—对照研究资料分析为例。(以下符号分别代表:D一病例组,百一对照组,E一暴露组,百一非暴露组)┌───┐│60 200││60 520│└───┘n 60x,zu从u=石石雨石O520=2D根...  (本文共9页) 阅读全文>>

浙江财经大学
浙江财经大学

部分线性模型因果推断稳健性研究

因果推断是一门在统计学科基础上发展起来的,专门用于研究事物间因果关系的学科。它在流行病学、医学、社会学、计量经济学以及行为学等学科领域运用非常广泛。因果推断的研究最初是利用有向无环图来表达原因与结果之间单方向的关系。但是图模型能够处理的数据量有限,基于图模型的相关算法多用于低维度的因果网络。为了处理更复杂更高维度的数据,学者们基于统计模型进行因果推断,使其可以处理线性、非线性、连续型、离散型等不同特点的复杂数据。这一结合使因果推断的运用范围更加广泛。混杂因素指的是因果推断中响应变量与预测变量的共同原因。若存在混杂因素就会导致因变量与自变量两者之间产生虚假关联,从而影响因果推断的结论。因此应该尽可能控制混杂因素才可以保证推断产生结论的正确性。但实际情况中人们无法控制潜在不竭的混杂因素。因此,研究混杂因素存在的条件下因果推断的稳健性具有重要的理论与现实意义。本文研究了混杂因素对部分线性模型因果推断稳健性的影响问题。在研究过程中,本文...  (本文共52页) 本文目录 | 阅读全文>>

《中国运动医学杂志》2010年06期
中国运动医学杂志

体质与健康促进研究中的混杂因素及其控制与处理

在体质与健康促进研究领域中常使用流行病学方法探讨人群中某个事件(event)发生的关联因素,或使用非实验性数据检验因果关系假说。在进行这类研究时,如何控制混杂因素(confounding factors,confounding vari-ables,confounders)以减少其对研究结果的干扰是所有研究者都必须面对的问题。Groenwold等曾对1985年至2005年医学检索数据库提供的论文摘要进行了调查,发现在以人为对象的观察性研究中平均只有9%的论文提及混杂因素或对混杂因素的控制;而在《新英格兰医学杂志》、《美国医学杂志》、《柳叶刀》等7种世界著名医学杂志上刊载的论文中,虽然这一比率有所提高,但是也只达到了35%[1]。另一方面,尽管在实验性研究(如非随机干预研究)中大多研究者注意了对混杂因素的控制,但在混杂因素的选择以及统计学处理上仍存在较多的问题。由此可见对混杂因素缺乏认识和处理不当是目前使用流行病学方法进行的研究中...  (本文共8页) 阅读全文>>

新疆医科大学
新疆医科大学

模拟随机对照试验研究

目的:本研究旨在通过探索处理混杂因素的手段,创造一种用于观察性数据疗效比较研究的新方法。方法:本方法基于以下原理:针对诊断为同种疾病接受不同治疗的一组患者,采用反复多次模拟随机化分组并根据RCT的统计分析策略进行疗效比较,以拒绝H_0的试验频率和不拒绝H_0的试验频率之比(odds值)及其95%CI作为判断不同治疗方法间疗效差异的依据。采用计算机模拟的方法获得统计量odds值的分布。对包含结局变量和混杂因素变量的模拟数据库进行随机化分组,对根据符合方案集分析(PP)策略保留下来的样本进行结局变量比较。重复100次随机化分组,并对每次随机化分组后结局变量进行比较,同时也对混杂因素变量的组间均衡性进行分析。计算100次结局变量比较分析结果中拒绝H_0与不拒绝H_0的比值(即odds值)重复100次odds值的计算过程得到odds值的点估计值及其95%CI。根据样本量(n_1=n_2=50,100,500和1000)、组间差异的把握度...  (本文共66页) 本文目录 | 阅读全文>>

山东大学
山东大学

因果效应估计中误调整中介变量后果及混杂悖论的研究

因果关系一直是生物医学研究的重点。如何在观察性研究和实验性研究中有效地避免混杂偏倚而准确估计因果效应,已成为当今研究中必须解决的关键问题。在观察性研究中,若因果图模型不知或先验信息有限,往往不能准确识别既与暴露因素相关又与结局相关的变量(中介变量、碰撞节点、混杂因素)。假设在不能正确辨识中介变量和混杂因素而采用logistic回归模型分析资料时,若把中介变量误作为混杂因素加以调整,此时会有何种结果?此外,在临床试验中,对于最终临床结局随访时间过长、或患者难以接受有创检测手段、或检测成本昂贵的研究,研究者常用替代终点评价试验结果。通过设计阶段的随机化分组,消除处理因素与结局之间混杂的影响,从而有效避免了众多混杂偏倚。但是,通常难以对替代终点随机化,替代终点与结局之间不可避免存在混杂因素,则会影响因果效应的估计,甚至会产生混杂悖论。为此,本文拟基于因果图模型,通过模拟试验对上述两种情况探索对因果效应的影响。对于前者,应用logist...  (本文共64页) 本文目录 | 阅读全文>>

《南京医科大学学报(自然科学版)》2018年07期
南京医科大学学报(自然科学版)

存在混杂时高维数据的随机森林分析

随着高通量技术的飞速发展,高维组学数据的分析成为了热点和难题[1],传统的统计学方法如t检验、卡方检验和非条件logistic回归等的使用受到了限制。近年来,大量研究表明随机森林(random for-est,RF)作为一个有效的机器学习方法,能较好地处理高维组学数据[2-5]。RF既可以用于分类也可以用于回归,不但能对结局进行预测,且能够提供每个变量的重要性大小,从而可用于高维数据的变量筛选,在组学数据分析中得到了日益广泛的应用。然而大部分的生物医学数据来自于观察性研(PPZY2015A067);江苏省自然科学基金重点项目(14JA31002)究,易受到混杂因素的干扰。在传统的多因素分析中,往往通过多因素回归分析,将混杂因素作为协变量以进行调整。因而,部分研究者在利用随机森林模型进行多因素分析时,也视混杂因素与所关心的研究因素地位相同,将两者等同对待,认为这样能调整混杂因素的干扰。本文将首先说明这种做法存在缺陷,然后再利用模拟...  (本文共5页) 阅读全文>>