使用gffread提取CDS和蛋白序列&由bp_genbank2gff3.pl从gbff生成gff3文件

一、使用gffread提取CDS和蛋白序列

gffread 是一个高效工具,支持从 GFF3 文件中提取 CDS 和 蛋白序列。

conda install -c bioconda gffread

提取CDS和蛋白序列

  1. 提取 CDS 序列

    /opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -x cds.fasta

    • -g genome.fasta:提供参考基因组序列。
    • -x cds.fasta:生成的 CDS 序列文件。
  2. 提取蛋白质序列

    /opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -y protein.fasta

    • -y protein.fasta:生成的蛋白质序列文件。

注意事项

  1. 确保GFF3和FASTA文件匹配
    • GFF3 文件中的序列 ID 必须与 FASTA 文件中序列 ID 一致。
    • 如果不一致,可以先手动检查或用脚本修改 ID。
  2. 检查 GFF3 文件的注释
    • GFF3 文件的 phase 字段(列 8)必须正确定义,以确保 CDS 翻译正确。
  3. 蛋白质翻译中的特殊情况
    • 如果 CDS 序列含有内含子,需要确保脚本支持剪切和拼接。
    • 检查是否有终止密码子,避免提前停止翻译。

二、由bp_genbank2gff3.pl从gbff生成gff3文件

           /var/www/html/Artocarpus/JBrowse-1.16.11/extlib/bin/bp_genbank2gff3.pl