eggNOG注释可以间接获得KEGG注释结果,但需通过其整合的数据库映射实现。以下是具体机制、操作方法和注意事项:
一、eggNOG与KEGG的关联机制
eggNOG(Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)是一个跨物种的直系同源基因数据库,其注释整合了多个公共数据库(包括KEGG)。具体关联方式如下:
二、从eggNOG注释中提取KEGG信息的步骤
1. 运行eggNOG-mapper
使用离线或在线模式对目标基因集进行注释:
emapper.py -i proteins.fasta -o output --data_dir /path/to/eggNOG_DB
2. 解析输出文件
在生成的 output.emapper.annotations 文件中,关注以下字段:
示例输出行:
query_name ... KEGG_ko=K00001,K00002 KEGG_Pathway=map00010,map00020 ...
3. 提取KEGG注释
使用脚本(如Python/Perl)提取并格式化结果:
import pandas as pd # 读取注释文件 df = pd.read_csv('output.emapper.annotations', sep='\t', comment='#') # 提取KEGG信息 kegg_data = df[['query', 'KEGG_ko', 'KEGG_Pathway']] kegg_data.to_csv('kegg_annotations.tsv', sep='\t', index=False)
4. 关联KEGG通路详情
将 map 编号与具体通路名称匹配(需本地存储KEGG通路映射表):
KEGG ID
Pathway Name
map00010
Glycolysis / Gluconeogenesis
map00020
Citrate cycle (TCA cycle)
三、优缺点分析
优点
缺点
1. 离线支持:无需依赖KEGG在线API。
1. 数据延迟:eggNOG更新滞后于KEGG官方。
2. 多数据库整合:同时获得COG、GO等注释。
2. 覆盖不全:部分KEGG通路可能未映射。
3. 自动化流程友好:适合批量处理。
3. 间接关联:需通过KO编号二次解析。
四、注意事项
download_eggnog_data.py --update --data_dir /path/to/DB