文 | 云霄钰
编辑 |云霄钰
背景单细胞和单核RNA-seq正在革新医学和生物学研究的过程中。Te通常是每个细胞和基因的稀疏覆盖,通过在一个实验中分析数千个细胞的能力来补偿。在基于液滴的方案中,如10倍铬,这是通过将单个细胞封装在液滴中和携带寡核苷酸的珠子一起来实现的。Tese通常包括一个用于启动逆转录的寡核苷酸序列,一个标记珠滴内所有转录本的特殊条形码,以及独特的分子识别。
作为证明每个液滴只封装一个细胞的原理,通常使用来自人类和小鼠的细胞的混合物双液,即包含两个细胞的液滴,可以很容易地识别,因为它们有小鼠和人类转录本的近似均匀混合物。然而,明显的大多数读取都是小鼠或人类的条形码,仍然包含来自其他物种的一小部分读取。此外,可能是空的液滴也会产生序列读取。
这种污染读取或背景噪声的一个潜在来源是无细胞的“环境”RNA,它从破碎的细胞泄漏到悬浮液中。其他潜在的来源是嵌合cDNA分子,由于所谓的“条形码交换”而可能产生。条形码标记的cDNA在逆转录后和PCR扩增之前的Te汇集是实现高通量的决定性步骤。然而,如果标记cDNA分子的扩增来自其他珠中未去除的寡核苷酸或不完全扩展的PCR产物,就会产生一个具有“交换”条形码和UMI的嵌合分子。
当对这个分子进行测序时,cDNA被分配到错误的条形码上,因此“污染”了一个细胞的表达谱。然而,除非在两个不同的基因之间发生交换,否则条形码和UMI仍将被正确计算。另一种类型的条形码交换可以发生在有模式的荧光细胞的PCR扩增,在具有相同缺陷的测序之前,尽管Illumina库的双索引大大减少了这一问题。据说,这里我们主要关注在库准备过程中发生的条形码交换。
不管背景噪声的来源如何,它的存在都会干扰分析。首先,背景噪声降低了细胞类型簇的可分离性,以及通过双向表达分析确定重要基因的能力。此外,从细胞类型特异性标记基因的读取溢出到其他类型的细胞,从而产生新的标记组合,从而意味着存在新的细胞类型。此外,背景噪声也会混淆样本之间的二向表达分析,例如,在两种条件下寻找一个细胞类型内的表达变化时。
在不同条件下,不同数量的背景噪声或细胞类型组成的差异会导致不同的背景谱,这可能在识别不同表达的基因时产生假阳性。为了缓解下游分析过程中的这类问题,已经开发了估计和校正背景噪声量的算法。
SoupX使用标记基因估计每个细胞的污染分数,然后使用空液滴作为背景噪声谱[11]的估计值,对表达谱进行反卷积。相比之下,DecontX默认为建模的分数通过变换基于良好细胞簇的混合分布,细胞中的背景噪声,但也允许用户提供一个自定义的背景轮廓,例如,从空液滴。CellBender要求在空液滴中测量的表达轮廓来估计来自环境RNA的背景噪声轮廓的平均值和方差。此外,细胞本德使用“好”细胞的混合轮廓明确地建模条形码交换贡献。
结果:小鼠肾脏单细胞和单核RNA测序数据我们获得了单细胞RNA-seq数据重复和单核RNA-seq数据重复。每个复制由一个10×[3]通道组成,其中3只小鼠分离肾脏的细胞汇集:一个来自株/EiJ和两个家鼠,一个来自株C57BL/6J和一个来自株129S1/SvImJ。基于已知的区分亚种和菌株的纯合子snp,我们将细胞分配给小鼠。我们总共鉴定出>40000个信息SNPs,其中大多数分离亚种,∼10000个SNPs区分两个家蝇菌株。
平均而言,每个细胞能够覆盖∼1000个信息snp,为我们提供这些位点明确的基因型呼叫。nuc2数据的Te覆盖率更低,只有∼100个SNPs 。
背景噪声分数在复制和细胞之间进行分配大约5-20%的UMI计数来自于含有SNP的分子,该SNP提供了关于其起源亚种的信息。我们量化了每个锥栗细胞中内源性蓖麻锥栗等位基因或外源家蝇等位基因被覆盖的频率。假设覆盖SNPs的计数分数代表了整个细胞,我们在每次实验中检测到所有细胞的外来基因型计数的中位数为2-27%。
.所观察到的交叉基因型污染分数代表了背景噪声总量的一个下限。建议希顿et al.,我们整合所有信息的外国等位基因分数获得最大可能性估计的背景噪声分数每个细胞,推断也包括污染从相同的基因型.基于这些估计,我们认为背景噪声水平在重复之间差异很大,似乎不依赖于每车道细胞产量测量的实验的总体成功。
例如,在scRNA-seq rep3中,我们检测到总体上最少的好细胞,但大多数细胞的背景噪声低于3%,而更成功的rep2,我们估计中位背景噪声水平约为11%。据说,从冷冻组织中生成的snRNA-seq数据比相应的scRNA-seq复制的背景水平要高得多——nuc2为35%,rep2为11%,nuc3为17%,rep3为3%。我们如何基于UMI计数来识别好的细胞,但对这种可变性影响不大。到目前为止,我们仍然认为nuc2中的最高背景水平和rep3中的最低背景水平.这种高的可变性并不令人惊讶。
这是一个真实的生活实验,根据使用nuc2的经验,改进了nuc3的实验条件。Te污染rna分子的数量仅微弱地依赖于覆盖信息变异的总UMI计数,作为细胞测序深度的代理。这种弱相关性可以用每一液滴中捕获度的变化来解释。对这种相关性的另一种解释,但不是相互排斥的解释可能是,一些污染分子的来源是在文库扩增过程中可能发生的条形码交换。
然而,总的来说,背景噪声的绝对数量大约是常数在细胞,因此污染分数主要取决于内生RNA:细胞越大,背景噪声的比例越小,指向环境RNA检测背景的主要来源。
只有条码交换的证据很少除了环境RNA外,PCR扩增过程中嵌合体形成产生的条形码交换也会导致背景噪声。与12个基点从10倍的UMIs,我们捕获相同的概率UMI-cell条形码组合两次非常低,因此多久我们发现相同的细胞条形码和UMI与多个基因是一个很好的措施条形码交换。这种嵌合分子的Te中位数分数在rep3的0.2%和nuc3的0.7%之间变化.与我们之前概述的预期一致,每个细胞交换的绝对数量与总分子计数密切相关。
结合与内源性分子计数之间的污染数量之间的弱相关性,这支持了大多数背景噪声不是来自交换的观点。为了更定量,我们结合交换和总背景分数来估计交换对总背景的贡献,以及条形码交换对背景噪声的中值贡献低于10%。
此外,具有交换条形码的分子预计每UMI的平均读取数较低。这是因为嵌合体在PCR的后期形成随后进行较少的扩增。如果Tus,大多数污染的reads来自条形码交换,我们预计交叉基因型污染分子每个UMI的reads的分布与观察到的嵌合体相似。这并不是我们所看到的。污染序列的Te分布与嵌合体的分布明显大于内源性序列。总之,我们认为在库准备过程中的条形码交换对该数据中的整体背景噪声贡献很小。
背景噪声去除对标记基因检测的影响上面我们已经证明了计算方法可以估计每个单元的背景噪声水平。此外,这三种方法都为用户提供了一个用于下游分析的背景校正计数矩阵。在这里,我们比较了使用来自SoupX、DecontX和CellBender的校正计数矩阵时标记基因检测、聚类和分类的结果(图6a,附加fle 1:图。S11).为了表征对标记基因检测的影响,我们首先检查了检测到的细胞数量;例如,Slc34a1在PTs以外的细胞中检测到的频率。
在没有校正的情况下,我们在∼中60%的非pt细胞中读取Slc34a1,SoupX将这一比例降低到54%,细胞本细胞降低到7%,细胞背景降低到9%。DecontXdeafavet成功地删除了大多数污染读取,将PTs外的Slc34a1检测率降低到2%。当我们fnd类似排名平均几个标记基因从数据库和scRNA-seq复制,排名变化核2:去默认失败:修正后,Slc34a1仍然发现在87%的非铂细胞而去背景更好的速度20%。在这里,CellBender和SoupX明显将Slc34a1的检出率分别降低到4%和<1%。
尽管在指定的细胞类型之外的标记基因检出率的变化似乎是显著的,标记基因的鉴定只是有点担心。细胞本校正在标记基因检测上的效果最大,但未进行校正的前10个基因中仍有8个是具有细胞本校正的标记基因。
相比之下,在高背景水平的nuc2数据中,标记基因检测的变化是显著的。在这里,只有前10个标记基因中的一个保留。细胞获得了最大的改进:经过校正后,前10个中有4个是已知的标记基因,而这种重叠在原始数据中只有一个。
此外,我们认为背景去除也增加了在所有复制和方法中检测到的已知标记基因的对数倍变化,其中CellBender提供了最大的改进。
背景噪声去除对分类和聚类的影响单细胞分析中最重要的、也是最重要的任务之一是细胞类型的分类。如上所述,我们可以使用外部单细胞参考数据集,在未校正的数据中识别出13种细胞类型。在对背景噪声进行校正后,经过相同的分类程序,只改变了极少数细胞的分类.对于scRNA-seq实验,<和使用原始数据的分类相比,背景去除背景后,1%和1.3%的细胞改变了标签。在校正之前,这些细胞大多位于由不同细胞类型为主的簇中。
此外,这些细胞往往具有更高的背景水平,例如pt标记基因Slc34a1。最后,无论方法如何,背景去除都是提高了分类预测分数,总之,这表明背景去除改善了细胞类型的分类。
类似地,背景去除也会导致更多不同的集群。在这里,我们推断相同细胞类型的细胞应该聚在一起,并使用无监督聚类评估背景去除对细胞类型的剪影评分和对每个聚类的细胞类型纯度的影响。对于scRNA-seq数据,DecontX的结果是最纯粹和最独特的集群,而对于nuc2数据,SoupX在这些类别中获胜。
总而言之,很明显,所有的背景去除方法都稍微提高了数据的广泛结构,但是fne结构呢?为了回答这个问题,我们再次转向基因型清理数据,以获得细胞的k最近邻的地面真相,并计算与使用原始数据相比,背景校正数据的重叠与这个地面真相高多少。
对于scRNA-seq数据,DecontX在广义结构上有最大的改进,但同时特别是DecontX背景降低了k-NN与我们假设的基本事实的重叠,这表明这种结构的变化是一种扭曲而不是一种改进。SoupX在scRNA-seq数据中使fne结构基本保持不变,而CellBender和DecontX都使fne结构稍差。相比之下,对于nuc2的高背景水平,所有的背景去除方法都取得了改进,其中SoupX和CellBender表现最好
讨论在这里,我们提供了一个数据集,用于表征10个×基因组学数据中的背景噪声,这是基准背景去除方法的理想选择。在我们的肾脏数据中,细胞类型的混合为我们提供了现实的细胞类型多样性,小鼠亚种的混合使我们能够识别细胞中的外来等位基因,从而产生一个数据集,使我们能够量化不同细胞类型和特征的背景噪声。
在此外,重复物表现出不同程度的污染,使我们能够评估低、中和高背景水平的缺陷。考虑到每个样品都对制备10×实验所需的完整细胞或细胞核的悬液提出了新的挑战,我们预计样品质量的这种可变性并不罕见。
因此,标记基因的识别被激活,标记基因的特异性较低,因为它们在不表达的细胞类型中被检测到。该问题的严重程度直接取决于背景噪声水平。这一特殊的问题以前已经被观察到,并被用作发展背景校正方法的前提。
这种分析的新颖之处在于,多亏了小鼠亚种的混合,我们能够获得描述每个样本中污染源的表达谱,并为更真实的数据集提供了一个基本事实。我们开始通过比较污染的轮廓与空液滴的轮廓和内源性好细胞的计数来表征背景噪声。
与环境RNA是由于细胞质泄漏的观点一致,我们认为空液滴显示未剪接的mRNA分子的证据较少,而污染颗粒中未剪接的部分与空液滴相似。
这首先表明,很大一部分的背景噪声是环境RNA。此外,我们只提供了由嵌合UMIs提供的条形码交换的少量直接证据,这只能解释高达10%的背景噪声。因此,在大多数复制中,观察到的细胞大小和每个细胞的背景噪声的绝对数量之间的相关性也可能是由于辍学率[4]的变化。
从比较污染、空污染和内源性污染的另一个重要见解是,我们可以推断出污染的来源。而对于rep1-3,所有三种形态都是高度相关的,并且是非常相似的细胞类型混合物的结果,而对于nuc2和nuc3,空形态和污染形态与预期的内源性混合物形态不同。
令人鼓舞的是,所有复制的内源性轮廓彼此一致,以及与文献中的细胞类型比例一致。此外,更高的相似性污染空比内生轮廓支持的概念,大多数背景噪声环境RNA,因此使用空而不是内生轮廓作为参考模型背景噪声为我们的数据是更好的选择。
实际上,与默认的内源性型相比,nuc2的空液滴型的性能得到了改善。我们还观察到,SoupX对snRNA-seq数据的性能远优于scRNA-seq数据。我们推测,我们的数据集有一种非常主要的细胞类型,在空液滴中具有相同的流行率,从而掩盖了所有背景,这是估计全实验平均污染的基础,这阻碍了标记基因的识别。
然而,即使SoupX得到了正确的整体背景水平,它的设计也严重低估了细胞间的差异,并且不能捕获细胞间的变化。
总体而言,细胞弯曲器提供了最准确的背景噪声水平估计,也能很好地捕获细胞间的变化。我们注意到,这种影响很大程度上是由于细胞本对细胞类型组成的鲁棒性污染源,它决定了污染和内源性污染之间的相似性。
与此相一致的是,CellBender也大大改进了标记基因的检测,这是唯一一种从其他细胞类型中去除标记基因分子并持续很好地增加对数倍变化的方法。在其他下游分析中,背景去除的效果要微妙得多。首先,使用外部引用进行分类是相当健壮的。即使在高水平的背景噪声下,背景去除也只改善了少数细胞的分类,我们不能说有一种方法优于其他方法。
类似地,数据的广泛结构只改善了最小限度,而这种最小的改进是以破坏fne结构为代价的。在这里,CellBender再次在去除变异和保留fne结构之间取得了最佳的平衡,而DecontX倾向于去除太多的簇内变异,因为DecontX的k-NN与基于基因型的地面真相的重叠甚至低于原始数据。总而言之,细胞弯曲器在去除背景噪声方面表现出了最好的性能。
结论背景噪声的水平在重复内部和重复之间变化很大,污染污染并不总是影响样本的细胞类型比例。标记基因检测最受这个问题的影响,因为已知的细胞类型特异性标记基因可以在它们不属于的细胞簇中被检测到。现有的背景去除方法擅长于去除这种杂散标记基因分子计数。相比之下,细胞的分类和聚类,即使在高水平的背景噪声下,也是相当稳健的。
因此,背景去除只提高了少数细胞的分类。此外,对于低和中等背景水平,现有广泛结构的收紧可能会以fne结构为代价。总之,对于标记基因分析,我们总是建议去除背景,但对于分类、聚类和伪时间分析,我们只建议在背景噪声水平较高时去除背景