从eggNOG注释结果得到KEGG数据库

Submitted by admin on Sun, 02/23/2025 - 10:46

eggNOG注释可以间接获得KEGG注释结果，但需通过其整合的数据库映射实现。以下是具体机制、操作方法和注意事项：

一、eggNOG与KEGG的关联机制

eggNOG（Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups）是一个跨物种的直系同源基因数据库，其注释整合了多个公共数据库（包括KEGG）。具体关联方式如下：

eggNOG → KEGG Orthology (KO):
eggNOG 的直系同源组（Orthologous Groups, OGs）与 KEGG 的 KO（KEGG Orthology）编号建立映射关系。
- 示例：
  eggNOG 组 COG0001 可能对应 KO 编号 K00001（乙醇脱氢酶）。
KO → KEGG Pathway:
通过 KO 编号进一步关联到 KEGG 通路（如 map00010: Glycolysis）。

二、从eggNOG注释中提取KEGG信息的步骤

1. 运行eggNOG-mapper

使用离线或在线模式对目标基因集进行注释：

emapper.py -i proteins.fasta -o output --data_dir /path/to/eggNOG_DB

2. 解析输出文件

在生成的 output.emapper.annotations 文件中，关注以下字段：

KEGG_ko：基因对应的 KEGG KO 编号（如 K00001）。
KEGG_Pathway：基因关联的 KEGG 通路（如 map00010）。

示例输出行：

query_name ... KEGG_ko=K00001,K00002 KEGG_Pathway=map00010,map00020 ...

3. 提取KEGG注释

使用脚本（如Python/Perl）提取并格式化结果：

import pandas as pd # 读取注释文件 df = pd.read_csv('output.emapper.annotations', sep='\t', comment='#') # 提取KEGG信息 kegg_data = df[['query', 'KEGG_ko', 'KEGG_Pathway']] kegg_data.to_csv('kegg_annotations.tsv', sep='\t', index=False)

4. 关联KEGG通路详情

将 map 编号与具体通路名称匹配（需本地存储KEGG通路映射表）：

KEGG ID
Pathway Name

map00010
Glycolysis / Gluconeogenesis

map00020
Citrate cycle (TCA cycle)

三、优缺点分析

优点
缺点

1. 离线支持：无需依赖KEGG在线API。
1. 数据延迟：eggNOG更新滞后于KEGG官方。

2. 多数据库整合：同时获得COG、GO等注释。
2. 覆盖不全：部分KEGG通路可能未映射。

3. 自动化流程友好：适合批量处理。
3. 间接关联：需通过KO编号二次解析。

四、注意事项

数据库更新：
定期更新eggNOG数据库（至少每年一次），以同步KEGG最新注释。
download_eggnog_data.py --update --data_dir /path/to/DB
结果验证：
对关键基因（如TPS家族）手动核对KEGG官网（https://www.kegg.jp/），确保注释准确性。
版权合规：
若用于公开发布的工具，需遵循KEGG和eggNOG的使用条款（学术用途通常允许，商业用途需授权）。

Main menu

You are here

User login

从eggNOG注释结果得到KEGG数据库