使用gffread提取CDS和蛋白序列&由bp_genbank2gff3.pl从gbff生成gff3文件

Submitted by admin on Mon, 12/30/2024 - 12:47

一、使用gffread提取CDS和蛋白序列

gffread 是一个高效工具，支持从 GFF3 文件中提取 CDS 和蛋白序列。

conda install -c bioconda gffread

提取CDS和蛋白序列

提取 CDS 序列：
/opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -x cds.fasta
- -g genome.fasta：提供参考基因组序列。
- -x cds.fasta：生成的 CDS 序列文件。
提取蛋白质序列：
/opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -y protein.fasta
- -y protein.fasta：生成的蛋白质序列文件。

注意事项

确保GFF3和FASTA文件匹配：
- GFF3 文件中的序列 ID 必须与 FASTA 文件中序列 ID 一致。
- 如果不一致，可以先手动检查或用脚本修改 ID。
检查 GFF3 文件的注释：
- GFF3 文件的 phase 字段（列 8）必须正确定义，以确保 CDS 翻译正确。
蛋白质翻译中的特殊情况：
- 如果 CDS 序列含有内含子，需要确保脚本支持剪切和拼接。
- 检查是否有终止密码子，避免提前停止翻译。

二、由bp_genbank2gff3.pl从gbff生成gff3文件

/var/www/html/Artocarpus/JBrowse-1.16.11/extlib/bin/bp_genbank2gff3.pl

Main menu