三组间 logrank 检验检验 总体p值怎么求

0
0

权限: 自定义头衔, 签名中使用图片, 隐身
道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯, 显身卡, 匿名卡, 金钱卡, 抢沙发
道具: 变色卡, 提升卡

购买后可立即获得 权限: 隐身

道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板

请教各位老师,请问在我们进行生存分析时,Kaplan Meier中进行log-rank检验,以及Cox回归时得到的卡方值,也就是对数似然比检验有什么意义啊,怎样解释这个数,谢谢。

老师好!对某一基因的生存分析如下:

问题一:如何判断LOW和HIGH的曲线是否有显著性差异?是曲线图中Log-rank值小于0.05有显著性差异?还是结果中P value值小于0.05有显著性差异?

问题二:图中Logrank值小于0.05,但P value值>0.05,能否认为两条生存曲线间有显著差异?

问题三:查阅老师您之前的回复和网络一些生存分析的资料后,Logrank是对曲线的检验,而此处的pvalue是似然比的检验,是对该因子的检验,那么二者必须都得小于0.05才能认为曲线有差异,并且是该因子引起的差异吗?

烦请老师解惑,十分感谢!

什么是基因表达,如下是来自于维基百科的解释:

这部分我不太懂,所以就放几段百度百科和维基百科的定义。

Q-PCR/qPCR/rt-qPCR、定量即时PCR、即时定量PCR),是一种在DNA扩增反应中,以萤光染剂侦测每次聚合酶链锁反应(PCR)循环后产物总量的方法技术,有广义概念和狭义概念。广义概念的定量PCR技术是指以外参或内参为标准,通过对PCR终产物的分析或PCR过程的监测,进行PCR起始模板量的定量。狭义概念的定量PCR技术(严格意义的定量PCR技术)是指用外标法(荧光杂交探针保证特异性)通过监测PCR过程(监测扩增效率)达到精确定量起始模板数的目的,同时以内对照有效排除假阴性结果(扩增效率为零)。

优点:灵敏性高,准确性高,通量也还行。一般而言,RNA-Seq和microassay分析得到的差异表达基因最终也需要通过这种实验方法进行验证。

但是一般适用于验证实验,而不是用于探索性实验。

基因芯片的概念在上个世纪80年代就已经提出来了, 被评为1998年度自然科学领域十大进展之一。他的基本原理通过设计专门的短核苷酸作为探针,把这些探针固定在专门的基片表面,然后用样本的cDNA进行杂交,根据杂交信号的强弱来判断基因表达的程序。

但是microarray检测的基因数量完全取决于你的探针设计的数量,而且难以研究mRNA的可变剪切。

RNA-Seq是目前基因表达分析最常用的技术。分为以下几步

RNA-Seq实验设计中的“重复”包括:技术重复和生物学重复
重复是为了检测组间和组内的变异,对于假设检验至关重要。

  • 技术重复为了估计测量技术(RNA-Seq)的变异。
  • 生物学重复是为了发现生物组内的变异。
    简单的说,两组的基因表达的变化只有比组内变异还大时才能认为时显著的。

相同基因在不同细胞的表达水平服从log-normal(对数正态)分布,由定量PCR验证。(:这与相同细胞不同基因表达的分布不同)但是大多数基因表达实验都是用一群细胞,几乎没有相应分布提出。

  • RNA-Seq观察到的数据是抽样过程中产生的离散(discrete)count形式。也就是说总体是恒定的,表达量越高的基因在抽样结果中所占的比例越大。表达量低的基因可能即便有也无法被检测出来。当然,重新对相同文库进行测序,还是有可能找到更多表达的转录本

  • microassay检测的是荧光信号的连续度量。由于使用固定的核酸序列去杂交,所以不是一种“零和游戏”,只要能杂交,就能被检测。(但如果没有设计相应的引物,就不能检测到可能的基因)

1.在不同背景下比较mRNA水平

  • 同一物种,不同组织:研究基因在不同部分的表达情况
  • 同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化
  • 同一组织,不同物种:研究基因的进化关系
  • 时间序列实验: 基因在不同时期的表达情况与发育的关系

2.基因分类: 找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等

3.基因网络和通路: 基因在细胞活动中的功能,基因间的相互作用。

当然,如果你要研究一个基因的功能时,不要先急着去花钱找公司测序,先去一些基因表达公共数据库找找看:

通过研究基因的差异表达,我们可以发现

  • 发育阶段特异性的基因;

基本方法就是以生物学意义的方式计算基因表达量,然后通过统计学分析表达量寻找具有统计学显著性差异的基因,从而

寻找差异表达基因有三种方式:
第一种是计算Fold change(倍数变化),十分简单粗暴的方法,计算方法如下:

说人话就是,基因A和基因B的平均值之差与两者中较小的比值。选择2-3倍的基因作为结果(为什么是2-3倍,就是大家约定俗成)。

但是简单粗暴的用2到3倍作为阈值,对于低表达的基因,3倍也是噪音,那些高表达的基因,1.1倍都是生物学显著了。更重要的没有考虑到组内变异,没有统计学意义。所以发文章肯定这个图只能作为附录了。

第二种就是统计检验,写文章的时候总需要给出一个p值告诉主编这个结果可信的(虽然p值也存在争论)。
复习一下:p值指的碰巧是拒绝零假设机会。P值越大假阳性越低,同时真实结果也可能会剔除。

: 基因表达分析的零假设是: 基因在不同处理下的表达量相同。

对于基因芯片的数据而言,由于样本服从正态分布,所以可以用t-test(双处理)或anova分析(多处理以上)。

T检验适用于只有两个处理的实验设计,如植物叶片在相同处理第一天和第二天的基因表达差异。


进行T-test检验时要注意:是双尾检验(存在差异)还是单尾检验(显著性上调或下降),两个样本的总体是不是等方差(标准T检验还是Welch’s test)

如果存在多于两个处理(条件),就需要用到ANOVA分析了。ANOVA分析能主要是研究结果之间的差异是如何引起的,具体请移步到我写方差分析教程。
对于基因表达而言,研究目标是,对于同一个基因而言,他们之间的差异是处理不同造成,还是因为系统误差造成。

当然你可以研究,不同基因的表达差异是由因为处理不同,还是基因不同,还是系统误差,还是其中一些的交互作用。

上面都是针对基因芯片的样本服从正态分布进行的统计检验。现在的RNA-Seq,它的抽样过程是离散的,结果是count,服从泊松分布,样本间的差异是服从负二向分布,显然不能按照上述方法分析。

方差分析(ANOVA)和线性回归分析(regression)都是同一时期发展的两套紧密相连的理论。方差分析考量的是离散型自变量(因子)对连续型应变量(响应变量)的模型分析,而线性回归分析只要求响应变量是连续的,对于自变量无要求。如果响应变量不是连续型分布,就要使用更加一般化的广义线性模型(generalized linear model),通过一个连接函数变换响应变量期望,将响应变量的期望与自变量建立线性关系。

因此,我们可以用广义线性模型去分析RNA-seq前期分析得到的离散型结果(count)

方差分析一般用于分析有计划的实验结果,比如说不同处理下的水稻产量。回归分析一般分析没有计划的数据,比如说你可以找到大量体检的数据,只分析其中性别和身高对体重的影响。所以两者各有侧重,不要拿大炮轰蚊子。

统计检验相对于fold change具有统计意义,不需要参考样本,需要处理随机取样。但是需要重复(ANOVA推荐4-10重复),但由于资金和材料等原因,不一定能够满足。此外,对于1000个基因,就要做1000次ANOVA或t-test,最后的p值会有一定的假阳性,因此要做p值矫正(FDR)筛选。

:推荐在统计检验前过滤表达量低,也就如果一个基因在所有样本中count均低于某一阀值,请在分析前剔除。这个阀值也是约定俗成,一般设置为3.

第三种:Fold Change + 统计检验。说一比较尴尬的事情,在统计检验中你找到越多的差异表达基因,在p值矫正之后,你反而找不到差异表达基因。也就是说,如果在结果中存在大量滥竽充数的所谓的DE基因,那么在严格的p值矫正筛选后,反而会误删真实的DE基因。

因此在p值矫正之前,你先要手动剔除一部分明显就是假阳性的DE基因。这个步骤就需要用到前面的fold-change分析。
我们可以通过火山图来看看如何确定区间

为了方便理解,我们选用同一组数据进行实际操作。默认你懂基本的R语言操作,如安装R包,查看帮助文件等。
正式学习之前,先感谢一下。 根据他们提供流程,我学习到如何进行RNA-Seq分析。

million.最后用limma包对每个样本每个基因的平均表达值以观察水平权重的线性模型进行拟合,并用T检验找到不同群体的差异表达基因。以FDR + log2-fold-change对基因排序。

先定一个包含所有文件的向量,方便后续调用。

查看下文件的数据格式,分别记录了每个基因的EntrezID,基因长度和数量

首先从各个count matrix文件中读取count,基因长度部分可以舍弃,因为DESeq2只需要为标准化的count数据,不需要提供基因长度信息。
逻辑就是分别读取每一个文件的count列,然后赋予文件名。

虽然DESeq2会自动屏蔽那些低count的基因,但是剔除那些几乎不存在基因的部分能够提高运行速度。

rlog和方差齐性转换

许多常见的多维数据探索性分析的统计分析方法,例如聚类和主成分分析要求,在那些同方差性的数据表现良好。所谓的同方差性就是虽然平均值不同,但是方差相同。

但是对于RNA-Seq count数据而言,当均值增加时,方差期望也会提高。也就说直接对count matrix或标准化count(根据测序深度调整)做PCA分析,由于高count在不同样本间的绝对差值大,也就会对结果有很大影响。简单粗暴的方法就是对count matrix取log后加1。这个1也是约定俗成,看经验了。

随便举个栗子看下效果:

and Huber 2010)用于处理含有色散平均趋势负二项数据。

到底用啥:数据集小于30 -> rlog,大数据集 -> VST。还有这个处理过程不是用于差异检验的,在DESeq分析中会自动选择最合适的所以你更不需要纠结了,记得用raw count。

结果就是转换后更加集中了。

RNA-Seq分析第一步通常是评估样本间的总体相似度。

  • 这与实验设计预期符合么

还有一种可视化样本-样本距离的方法就是主成分分析。PCA分析我打算找点资料好好理解之后再写,这个说下有这个方法。
DESeq2提供了专门的方法用于作图,还很好看呢!

能够明显的发现不同处理的距离离得很远。

差异表达基因分析(DEA)

在几行输出后信息后,分析就完成了,更多具体参数可以用?DESeq查看手册

实际上results有如下众多参数

比如可以指定比较对象Basal和PL,可以用mcols查看结果存储的元数据,了解列名的含义。

最后还可以看一些总结性的内容

在limma分析结果分别是4127,4298,稍微多了那么2000个基因。其他结果也基本上都了2000个。看起来对于22000多个基因而言,差异不算太大。

于是乎结果就和limma差不多了。

在高通量数据分析中,我们通常不是用p值来拒绝原假设,更多是用来进行多重试验矫正。

为什么要做多重试验矫正?

如果对一个基因,我有99%的把握认为是差异表达的,也就是说1%的可能是错的。那么假设有10000个基因,按照数学期望,有100个是假的。因此为了保证多重试验结果的可靠性要对结果的p-value做矫正。

如果我们选择了所有小于或等于矫正p-value阈值的所有显著性基因,假阳性比例( false discovery rate, FDR)是多少?

FDR在高通量试验中是比较有用的统计值,由于我们通常关注一类自己感兴趣的基因,所以我们需要设置一个假阳性上限。

我们从结果中以1%作为显著性,分别找出显著性上调和下调的基因。

人类对图像比较敏感,对文字比较迟钝。所以我们需要一些比较好看的图来放到文章中解释说明。

最简单的就是Counts plot,看看特定基因的count数量。

更加喜闻乐见的是基因聚类所提供的热图展示。我们可以找前20个样本件差异比较大,然后看他们在不同样本间的表达情况。

大致可以发现同一组的基因颜色是相同的,也就是说表达量相近。

找到差异表达的基因只是第一步,后续还需要对这些基因进行进一步的分析,如

而这些内容就是我接下来的学习重点,也是下次更新文章的主题。

我要回帖

更多关于 logrank 检验 的文章

 

随机推荐