Submitted by admin on Mon, 04/07/2025 - 10:24
不使用SNP、剪接位点和外显子注释在HISAT2比对中会对后续Cufflinks表达量计算产生以下几个主要影响:
- 没有使用--ss(剪接位点)和--exon(外显子)注释时,HISAT2无法识别某些非规范的剪接位点,这可能导致剪接点的识别不完整。Cufflinks需要特殊的XS属性来标记转录本的正反链信息,这对于正确计算表达量是必需的。 HISAT2
- 当使用HISAT2输出的BAM文件运行Cufflinks时,如果没有适当的注释,可能会出现"BAM record error: found spliced alignment without XS attribute"错误,导致Cufflinks无法正确处理比对结果。 Usegalaxy
- 使用HISAT2时需要添加特殊选项"--dta-cufflinks",以便在输出SAM文件中包含Cufflinks所需的属性。如果没有这个选项,即使有高质量的比对结果,Cufflinks也无法正确处理。 SEQanswers
- HISAT2提供了专门为转录本装配器(如StringTie和Cufflinks)设计的选项,以便与HISAT2的比对结果更好地配合工作,这些选项包括--dta和--dta-cufflinks。 HISAT2
为了解决这些问题并确保在不使用那些注释的情况下也能获得较好的表达量计算结果,您可以:
- 在运行HISAT2时添加"--dta-cufflinks"选项,即使没有使用SNP和剪接位点注释,这也能确保输出包含Cufflinks所需的XS属性
- 转为使用其他更现代的工具组合,如HISAT2-StringTie-Ballgown,它对低表达量基因更敏感,可能比传统的Cufflinks流程提供更好的结果 Biomedcentral
- 如果条件允许,考虑使用比对无关的量化方法,如Kallisto或Salmon,这些工具在转录本水平的量化上比对依赖型方法更准确 CGAT
综上所述,虽然可以不使用SNP、剪接位点和外显子注释运行HISAT2并用Cufflinks计算表达量,但会影响一些复杂剪接事件的检测,可能导致某些基因表达量的计算不准确,特别是那些具有复杂可变剪接模式的基因。
相比Cufflinks,使用StringTie计算表达量时不加SNP、剪接位点和外显子注释的影响确实要小得多,但仍然存在一些影响:
- StringTie的官方推荐工作流程确实包括使用这些注释信息:"强烈建议在映射读段时使用参考注释信息,这些信息可以嵌入到基因组索引中(使用--ss和--exon选项构建),或者在运行时单独提供(使用HISAT2的--known-splicesite-infile选项)"。 Jhu
- 当没有提供已知剪接位点文件时,HISAT2可能会使用默认的潜在剪接位点集合。使用这些注释选项的好处是可以进行更具体的映射,因为它可以过滤掉与已知剪接位点不一致的比对。 Biostars
- StringTie也像Cufflinks一样需要XS标记来指示读段映射到的转录本的正反链。HISAT2可以为规范剪接位点(GT/AG)报告这个标记,但对于非规范剪接位点则不能。 HISAT2
- 使用注释信息可以提高HISAT2的敏感性和精确度,减少错误比对,特别是那些错误连接不同读段束的比对,这些错误会扰乱StringTie中的流算法,并影响组装转录本的表达估计。 Nih
不过,StringTie相比Cufflinks有以下优势:
- StringTie对不同比对工具(如HISAT2和STAR)的结果处理更加稳健,虽然可能会产生略有不同的转录组装配结果。 GitHub
- 在HISAT2-StringTie流程中,使用--dta选项足以让结果得到较好的处理,这个选项会让HISAT2为从头发现剪接位点需要更长的锚点,从而减少短锚点比对,帮助转录本装配器显著改进计算和内存使用情况。 Davetang
总结来说,虽然不使用SNP、剪接位点和外显子注释对StringTie的影响比对Cufflinks的影响小,但为了获得最佳结果,仍然建议:
- 使用--dta选项运行HISAT2进行比对
- 如果有高质量的参考注释,最好在建立索引时使用--ss和--exon选项或在运行时使用--known-splicesite-infile选项
- 对于没有这些注释的情况,StringTie仍能产生合理的结果,但可能会错过一些复杂的剪接事件,特别是非规范的剪接位点