批次(batch),我们从干实验角度上很难说清楚,从上游湿实验角度来讲又显得太过于繁琐以及冗杂(以及太过于废话);
一言以蔽之:与感兴趣的生物学分组无关的全部其它干扰因素
批次效应代表了在处理和测量不同批次样本时出现的系统性技术差异,这些差异与 (上游生物学实验,这个定语是我编的)实验期间记录的任何生物变异无关
https://en.wikipedia.org/wiki/Batch_effect
1,并不是所有的批次效应都可以被矫正
参考:https://mp.weixin.qq.com/s/sdPyyEed_0d6Uu_zMT7gAw
取样时间、上机时间等,其实从严格意义上讲,只要是非实验手段的扰动,严谨考虑上都有所谓的批次;
那同一个病人取样呢,同一个病人的同一个器官取的2个、3个甚至是多个组织部分,从理论上讲只要涉及到湿实验实验条件的影响,都会有批次的影响
对于bulk呢:bulk其实很多人处理数据的时候并不会·在意批次问题,所以现在的生信分析手段其实很多都考虑到了湿实验细节的地步上了。
2,关于批次效应矫正后出现负值
https://mp.weixin.qq.com/s/eMS8QQz1e_lk8_cV6zkbPw
所以问题的关键在于处理掉这些异常值:
3,校正批次效应
https://mp.weixin.qq.com/s/rQ4vOckgkzCryd4At2mVpA
https://genomicsclass.github.io/book/
4,GSE83521/GSE89143数据集-需去除批次效应
https://mp.weixin.qq.com/s/MYXdQtXEXdPdvINYOZ2buQ
5,你确定你的差异基因找对了吗?
https://mp.weixin.qq.com/s/_4lswhtg04_ctuIJYDhlJg
因为我想看一下所谓的差异表达是不是就是和你的生物学分组,也就是case或者control相关,如果不是,说明有其他的干扰因素,那直接分析的话就是有批次效应的问题。
因为我无法确定你的分析结果是真正的有生物学差异还是批次效应所导致
6,多种批次效应去除的方法比较
https://mp.weixin.qq.com/s/7D9RHQTJNv8RbUOkBWKP5Q
(1)使用 limma 的 removeBatchEffect 函数
(2)然后使用 sva 的 ComBat 函数
7,批次效应不得不防:
https://mp.weixin.qq.com/s/pw1JLe8g_RLk0DTSn1szPQ
8,PCA图显示分组无差异,怎么办?
https://mp.weixin.qq.com/s/SvEHZ-vjxZmM6AF0aqrWVw
9,多个单细胞转录组样本的数据整合之CCA-Seurat包
https://mp.weixin.qq.com/s/i4_kzuAkNZYnB_DfwS-Ppg
1个病人有多个组织部分可取,即1个病人取出多个样本,是很常见的,但是就是不清楚具体做湿实验的时候所谓的批次如何,也就是batch如何。
多个样本整合,所谓整合,实际上是包含去批次的目的在的
10,单细胞转录组测序中的批次效应知多少?
https://mp.weixin.qq.com/s/I79GE6SYrqV51K8qrSHVpw
https://mp.weixin.qq.com/s/hqOeojIviZQmIXBTuwyiEQ
判断是否有批次效应:
我们的问题是这样的:
首先我们可以看到sample1和sample2在最上方的cell簇上有重合,但是左边以及右边的cell簇实际上并没有重合,相反反而是完全样本特异性地独立开来,所以这到底是真实的生物学差异(也就是sample1真实的具有某个只属于它自己的细胞簇,以及sample2同理),还是因为在实际执行过程中因为湿实验的一些批次问题导致的这些sample显示出来不一致的cell簇?
从UMAP观察批次效应:
其实实际上有了有差异的降维降维聚类图之后,还是要进一步查看cell细胞注释
所以还是要依据cell群体注释以及生物学背景知识来进一步判断
所以判断批次效应的依据很简单:
就是UMAP或者是tSNE聚类中不同样本的cell聚集为不同的簇,这种情况下有可能是有批次效应,说白了就是批次效应是和真实生物学差异共轭出现的,所以当有疑似生物学差异的时候,我们就可以进入怀疑状态(大意如此)
是否去除是取决于生物意义的,而不是技术
11,到底是批次效应还是真实生物学差异
https://mp.weixin.qq.com/s/hyfNpYzbIMrBKmBp3QjCiw
都是seurat的教程
也就是说,还是需要先看一下umap图或者是t-SNE的降维分群图(也就是clustering)
12,我的课题只有一个10x样本肿么办?
https://mp.weixin.qq.com/s/E9IF6KTSq_OrwTxEUtoErg
这里的1个病人1个样本,又确实没有在一个病人中取多个组织,所以确实是1个样本
13,两个样品的10x单细胞转录组数据分析策略
https://mp.weixin.qq.com/s/E-M-HN3v-ebbRGqemd8ZyQ
这里确实是两个样本(本身也是来自不同对象的)
分析过程中分开展示分群效果
14,三个10X单细胞转录组样本CCA整合
https://mp.weixin.qq.com/s/8IJ5NjPzasMDHYFyqwZ22w
这里多样本又确实是多样本,毕竟取自3种小鼠
问题是很多多样本、双样本或者是单样本,都是直接1个样本取1个样之类的,有没有1个样本里取多个组织部位的,这样也能构成多样本
最后,我给一句忠告
有的分析,除非是教程指示有明确的理由,以及自己的数据也吻合,否则自己数据处理的代码都使用相关函数的默认参数(default)
——》hh:
所有的参数除非你有明确的理由去使用,否则数据分析时候一般使用default即可