GEO代码分析流程 - 7. 复杂数据及其分析

2022/9/16 6:18:39

本文主要是介绍GEO代码分析流程 - 7. 复杂数据及其分析,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1. 配对样本的差异分析

在差异分析的数据处理中,只有design这一行代码有区别

pairinfo = factor(c(1,2,1,3,2,3))
design = model.matrix(~group_list + pairinfo)

配对信息:1,2,3分别为三个病人;

分组信息:由group_list指定,post和pre为有序因子。

配对样本数据的可视化


 2. 多个分组的数据

策略1:选出一个分组作为对照,其他分组分别与对照进行差异分析

策略2:两两对比:AB、AC、BC

关于作图:火山图只能分开画,其他图分开和合并都可以


  3. 多个series联合分析

考虑批次效应:

(1)选择来自同同一芯片平台(GPL)的series

(2)需要处理批次效应(Batch effect)

数据集A + B,各自分为treat和control两组;

本来AB各自的treat和control各差异,合并后竟然差异

本来AB各自的treat和control差异,合并后竟然差异

处理批次效应

例如,合并两个数据集时,第二个数据集的第三个样本有异常:

 

可以用limma::normalizeBetweenArrays()函数把异常样品的中位数拉到同一水平上,也可以直接把异常样本去掉。比较来说,去掉的结果更好些。

但是,直接用两个中位数不在同一水平上的数据集来做分析的结果是错误的,需要处理批次效应,将两个数据集的中位数拉到同一水平上:

 

处理批次效应的两个函数:limma::removeBatchEffect(),sva::ComBat()


 



这篇关于GEO代码分析流程 - 7. 复杂数据及其分析的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程