从eggNOG注释结果得到KEGG数据库

eggNOG注释可以间接获得KEGG注释结果,但需通过其整合的数据库映射实现。以下是具体机制、操作方法和注意事项:

一、eggNOG与KEGG的关联机制

eggNOG(Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)是一个跨物种的直系同源基因数据库,其注释整合了多个公共数据库(包括KEGG)。具体关联方式如下:

  1. eggNOG → KEGG Orthology (KO):
    eggNOG 的直系同源组(Orthologous Groups, OGs)与 KEGG 的 KO(KEGG Orthology)编号建立映射关系。
    • 示例
      eggNOG 组 COG0001 可能对应 KO 编号 K00001(乙醇脱氢酶)。
  2. KO → KEGG Pathway:
    通过 KO 编号进一步关联到 KEGG 通路(如 map00010: Glycolysis)。

二、从eggNOG注释中提取KEGG信息的步骤

1. 运行eggNOG-mapper

使用离线或在线模式对目标基因集进行注释:

emapper.py -i proteins.fasta -o output --data_dir /path/to/eggNOG_DB

2. 解析输出文件

在生成的 output.emapper.annotations 文件中,关注以下字段:

  • KEGG_ko:基因对应的 KEGG KO 编号(如 K00001)。
  • KEGG_Pathway:基因关联的 KEGG 通路(如 map00010)。

示例输出行

query_name ... KEGG_ko=K00001,K00002 KEGG_Pathway=map00010,map00020 ...

3. 提取KEGG注释

使用脚本(如Python/Perl)提取并格式化结果:

import pandas as pd # 读取注释文件 df = pd.read_csv('output.emapper.annotations', sep='\t', comment='#') # 提取KEGG信息 kegg_data = df[['query', 'KEGG_ko', 'KEGG_Pathway']] kegg_data.to_csv('kegg_annotations.tsv', sep='\t', index=False)

4. 关联KEGG通路详情

将 map 编号与具体通路名称匹配(需本地存储KEGG通路映射表):

KEGG ID
Pathway Name

map00010
Glycolysis / Gluconeogenesis

map00020
Citrate cycle (TCA cycle)

三、优缺点分析

优点
缺点

1. 离线支持:无需依赖KEGG在线API。
1. 数据延迟:eggNOG更新滞后于KEGG官方。

2. 多数据库整合:同时获得COG、GO等注释。
2. 覆盖不全:部分KEGG通路可能未映射。

3. 自动化流程友好:适合批量处理。
3. 间接关联:需通过KO编号二次解析。

四、注意事项

  1. 数据库更新
    定期更新eggNOG数据库(至少每年一次),以同步KEGG最新注释。

    download_eggnog_data.py --update --data_dir /path/to/DB

  2. 结果验证
    对关键基因(如TPS家族)手动核对KEGG官网(https://www.kegg.jp/),确保注释准确性。
  3. 版权合规
    若用于公开发布的工具,需遵循KEGG和eggNOG的使用条款(学术用途通常允许,商业用途需授权)。