Logistic Regression Analysis 常用来临床上病例对照研究中危险因素的筛查和评估,最常见的回归分析当属二元逻辑回归分析,理解核心概念对于此类临床研究的设计及数据的解读尤为重要。
一、常见概念:
1. 二元逻辑回归分析,是因变量的二分类回归分析,分为单自变量和多自变量二元逻辑回归分析,单自变量即不调整混杂因素,多自变量即调整混杂因素;也可分为条件性(配对或配伍)或非条件性(成组)逻辑回归分析。
2. 优势比,OR(Odds Ratio),暴露人群发病优势与非暴露人群发病优势之比。
3. 回归系数βi反映自变量Xi对因变量Y作用的大小。
4. 标准回归系数,是指比较不同自变量因素对Y作用大小时的参数。
5. P表示个体发生某病的概率。
6. adjusted OR是指将混杂因素纳入logistic 回归分析后得出的OR值,而unadjusted OR是指没有纳入其它的参数,即logistic回归分析中只有一个自变量因素,此时得出的OR值为unadjusted OR。
7. 对于连续变量,一般先通过ROC曲线计算cutoff值,之后转换为二分类自变量纳入模型中。
8. OR值结果的呈现先是one variable model和multiple independent variable model,其实是从未调整混杂到调整混杂,从粗略的危险因素筛查到是否为独立的危险因素的转变过程。
9. 多元线性回归与逻辑回归的主要差别在于:多元线性回归不能回答因变量“发生与否”的问题,且其自变量与因变量均要求为连续的线性关系的变量,而logistic回归方法补充多元线性回归的不足。
二、Logistic 回归操作步骤及结果解读
1. 目的:评估危险因素X(单个或多个)对因变量Y发生与否(取0或1) 的数量关系。数量关系即影响或作用大小:一般用优势比OR(odds ratio),回归系数β以及P值来评估,其中OR>1为危险因素, 而OR<1为保护因素。
2. 操作步骤
步骤1 变量的选择
1) 变量的选择(危险因素)方法,建立Logistic回归模型时,进入模型的自变量应对因变量有解释的能力,先使用单因素分析(Chi-square, t test或单因素Logistic回归等)筛查有意义的自变量。
2) 建议纳入的变量有 A.单因素分析差异有统计学意义(最好将P值放宽至0.1或0.15等,目的是避免漏掉一些重要因素);B.单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。
3) 对于连续变量,若不计算OR且只是为调整该变量带来的混杂,则可直接纳入回归模型中;若需要计算OR,则需将连续变量转换为有序多分类变量后纳入模型中。
步骤2 逻辑回归模型的建立
将因变量和自标量纳入,并选择自变量筛选的方法(一般选择逐步回归),Hosmer-Lemeshow goodness-of-fit:检验模型的拟合优度;CI for exp(B):结果给出OR值的95%可信区间,并最后步骤显示。
步骤3 结果的解读
1) 解读Omnibus Tests of Model Coefficients,即模型系数的综合检验,P<0.05表示本次拟合的模型中,纳入的变量中,至少有一个变量的OR值有统计学意义,即模型总体有意义。
2) Hosmer and Lemeshow Test:是检验模型的拟合优度。当P值不小于检验水准时(即P>0.05),认为当前数据中的信息已经被充分提取,模型拟合优度较高。
3) Variables in the Equation:查看最终进入模型的变量,其中Sig.一列表示相应变量在模型中的P值,Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。
步骤4 结论撰写
1) 关注因素在两组之间的统计学差异情况,在Logistic回归模型中调整其它混杂因素后的优势比OR值。
2) 由logistic 回归分析得出的OR 有统计学意义,则该因素为独立危险因素independent riskfactors(一般不止一个)。
文章参考:
-
Tao X, Chen F, Sun Y, et al. Prediction models for postoperative uncontrolled chronic rhinosinusitis in daily practice[J]. The Laryngoscope. 2018.
-
http://www.biomart.cn/specials/shixiongcoming/article/110648
-
https://zhuanlan.zhihu.com/p/24574465
-
https://www.scalelive.com/unadjusted-odds-ratio.html