绝对原创丨10X单细胞免疫组库第三轮知识点轰炸

北京日期:2021-06-11 18:19


在上一期免疫组库推送中,我们对10X单细胞免疫组库 cellranger vdj结果文件进行了介绍,但由于篇幅有限,未对结果文件进行详细解读,本篇推送我们将从结果中挑选部分重要文件,对文件以及其中的名词进行梳理,为基于单细胞免疫组库的下游分析介绍做好铺垫。


1、从reads到Contig




10X单细胞免疫组库在分析过程中首先获得是组装获得的是Contig序列,所谓Contig,也就是在上文中提到的来自同一个细胞的测序片段组装而成的一些连续性序列(潜在的全长VDJ转录本),all_contig_annotations.csv的结果文件就包含了对组装获得的所有Contig的说明信息,文件各列说明如下所示:

       barcode          Contig 对应的细胞标签(即该组装序列属于哪一个细胞标记物)

       is_cell              Contig 对应的barcode是否鉴定为细胞(在分析中会排除胞外游离转录产物或多细胞的情况)

       contig_id               Contig 的名称

       high_confidence  Contig 是否为高度可信(排除嵌合体或人工序列的可能性)

       length                   Contig 的长度

       chain                     与 Contig 相关的链名称(如TRA, TRB, IGK, IGL, IGH) ;"Multi" 表示该片段出现了多个链的特征

       v_gene           V片段比对打分最高基因,如TRAV1-1

       d_gene           D片段比对打分最高基因,如TRBD1

       j_gene             J片段比对打分最高基因,如TRAJ1-1

       c_gene            C片段比对打分最高基因,如TRAC

       full_length      Contig是否为全长(全长的要求是组装的Contig起始片段与V基因头部片段重合,终止片段与J基因尾部重合)

       productive       Contig是否被判断为productive

       cdr3                 Contig 预测到的CDR3氨基酸序列

       cdr3_nt            Contig 预测到的CDR3核酸序列

       reads                比对到Contig的reads数量,反应了支持这条组装Contig的原始测序reads数量,即为read count数,reads(或umis)计数源于组装Contig的细胞

       umis                比对到Contig的可信umi数量, 反应了支持这条组装转录本的分子数量,即有多少条转录本的片段支持这条Contig,reads(或umis)计数源于组装Contig的细胞

       raw_clonotype_id 该细胞标签(cell_barcode)所分配到的克隆型名称

       raw_consensus_id 该细胞标签(cell_barcode)所分配到的一致性序列名称

 

以上文件各列中,productive代表了这个组装Contig是被预测为能够产生功能蛋白,预测结果若为productive,那该Contig需要满足多项条件,我们来看看cellranger的源码里是怎么判断的吧(图中的硬性条件判断可能比文字描述有更少的理解歧义):

对于以上组装获得的所有Contig,满足全长、高度可信等多个条件的Contig,在经过滤后会保留下来,用于后续的克隆分型,而这些Contig的信息,则会保留在文件 filtered_contig_annotations.csv 内,由于该文件格式与上述的all_contig_annot ations.csv格式相同,这里不再冗余介绍。


2、从Contig到克隆型




对于过滤后获得的Contig,会将其用到后续的克隆型分组,具有相同注释的V,D,J,C基因的转录本,会被归位精确匹配的克隆亚型(Exact subclonotype), 这些共享有同种精确匹配克隆亚型的细胞的集合,就是克隆型(clonotype)。TCR由于缺乏突变,因此同克隆型产生的序列较为一致,但B细胞由于突变的特点,同克隆型内的序列常常会有多种精确匹配亚型,因此较难判断不同的B细胞是否源自于同一先祖,有关10X鉴定B细胞克隆型的思路可以参考网站(https://10xgenomics.github.io/enclono/pages/auto/help.how.html)。精确匹配的克隆亚型的序列会进行合并,合并后的序列称为一致性序列(consensus),对于这些一致性序列的相关信息,包含在文件consensus_annotations.csv内,其各列内容如下所示:

       clonotype_id     一致性序列的克隆型ID

       consensus_id     一致性序列的ID

       length                consensus的长度

       chain                 与consensus相关的链名称(TRA, TRB, IGK, IGL, IGH);"Multi" 表示该片段出现了多个链的特征

       v_gene           V片段打分最高基因,如TRAV1-1

       d_gene           D片段打分最高基因,如TRBD1

       j_gene            J片段打分最高基因,如TRAJ1-1

       c_gene           C片段打分最高基因,如TRAC

       full_length     consensus是否为全长

       productive     consensus是否被判断为 productive

       cdr3                consensus预测到的CDR3 氨基酸序列

       cdr3_nt           consensus预测到的CDR3 核酸序列

       reads              比对到该consensus的reads数量 (由属于该consensus的contig 比对reads数量相加得到)

       umis               比对到该consensus的可信umi数量 (由属于该consensus的contig 比对umi数量相加得到)

       v_start          该序列的V区域起始位点

       v_end           该序列的V区域终止位点

       v_end_ref     参考序列上V gene的终止位置

       j_start           该序列的J区域起始位点

       j_start_ref     参考序列上J gene的起始位置

       j_end            该序列的J区域终止位点

       cdr3_start     该序列上CDR3区域的起始位置

       cdr3_end      该序列上CDR3区域的终止位置

 

consensus_annotations.csv文件主要包含的信息为精确匹配的克隆亚型序列,而对于单细胞免疫组库的克隆型分布以及丰度情况,我们则需要关注重要的文件clonotypes.csv, 该文件各列内容如下所示:

       clonotype_id     一致性序列所分配到的克隆型名称

       frequency          该克隆型分配到的细胞barcode数量 (即支持该克隆型的细胞数量)

       proportion         该克隆型分配到的细胞barcode占细胞barcode的百分比(实为支持该克隆型的细胞数量与所有过滤后保留细胞数量的比值)

       cdr3s_aa             链名称及该链CDR3的氨基酸序列,链之间以分号分隔

       cdr3s_nt              链名称及该链CDR3的核酸序列,链之间以分号分隔


以上部分即为我们从结果中挑选的部分重要文件进行了解读,如有疑问的话,可以给我们留言或者电话咨询哦,下期10X单细胞免疫组库推文,我们会针对下游软件和作图方法进行介绍,感兴趣的小伙伴,持续关注我们吧~


注:文中代码部分截图源自于https://github.com/10XGenomics/cellranger/blob/master/lib/python/cellranger/vdj/annotations.py





联系方式



转载申请 | 请留言公众号名称+微信号开通白名单

转载要求 | 转载时需注明文章来源

联系电话 | 400-007-9358 或 010-61703578

服务邮箱 | service@bioguoke.com
所在地址 | 北京市昌平区中关村生命科学园生命园路8号院6号楼8层


本文转载自网络,版权归原作者所有,如侵犯您的权益请联系wyl860211@qq.com,我们将第一时间删除。

最新资讯

热门新闻

猜你喜欢