转录组数据

菠萝蜜 (Artocarpus heterophyllus) 转录组原始计数矩阵 (Raw Count Matrix) 数据资源分析报告

 

 

第一部分:菠萝蜜处理转录组矩阵的现状

 

 

A. 核心请求的直接回应

 

针对用户提出的关于菠萝蜜 (Artocarpus heterophyllus) 转录组研究中,寻找可直接下载的“rawCount.matrix”(原始计数矩阵数据)的具体技术需求,本报告的结论是:在对当前主流公共数据库和相关文献进行详尽检索后,未发现有研究公开发布一个“即用型”(ready-to-use) 的原始计数矩阵文件以供直接下载。

目前的数据现状存在一个显著的特征:即数据生成与数据可用格式之间的脱节。多项研究确实生成并使用了此类矩阵文件来进行其生物信息学分析 ,但这些研究在公开发布数据时,遵循了数据存档的标准做法,即上传了原始测序读长 (raw sequencing reads)(例如,FASTQ/SRA 格式文件),而并未将其分析过程中产生的(也是研究人员重用数据时最需要的)计数矩阵文件作为补充材料一并提供。  

 

 

B. 系统性问题:“可用数据”与“可用格式”的鸿沟

 

用户的检索困境揭示了一个在当代生物信息学研究中普遍存在的系统性摩擦。科学期刊和资助机构要求研究者遵循 FAIR(可发现、可访问、可互操作、可重用)原则进行“数据存档”。然而,在转录组学领域,这通常被解释为仅需将庞大的原始 FASTQ 文件存放到 Sequence Read Archive (SRA) 或 Genome Sequence Archive (GSA) 等数据库中 。  

 

这一过程的因果链如下:

  1. 研究执行:研究团队在本地服务器上运行复杂的生物信息学流程,最终生成一个关键的中间文件——rawCount.matrix.tsv(或.csv/.txt)。
  2. 分析与发表:研究团队基于这个矩阵文件进行下游的差异表达基因 (DGE) 分析(例如使用 DESeq2 或 edgeR )、主成分分析 (PCA) 和热图绘制 。  
  1.  
  2. 数据存档:为了满足发表要求,团队将原始的、体积庞大的(通常达数十至数百 GB)FASTQ 文件上传到公共原始数据库(如 SRA)。
  3. 数据遗漏:在这个过程中,那个体积相对较小(通常仅为几 MB)、但分析价值极高的 rawCount.matrix 文件,却常常被遗漏,未能作为补充材料随文章一同发布。
  4. 后续研究者的困境:当其他研究者(如本报告用户)希望重现或扩展该研究时,他们被迫从 SRA 下载海量的原始数据,并花费数天时间重复整个复杂的生物信息学流程(包括质量控制、序列比对、读长计数),其目的仅仅是为了重新生成那个已经存在的 rawCount.matrix 文件。

本报告旨在为用户提供绕过这一障碍的最有效途径,即明确指出哪些研究提供了必须自行处理的原始数据,并评估哪些研究最有可能通过直接联系作者来获取该矩阵。

 

C. 表 1:菠萝蜜转录组数据记录综合目录

 

为了提供一个清晰的概览,下表整合了本次分析中识别出的与菠萝蜜转录组相关的主要研究及其数据存档情况。

研究主题 (第一作者, 年份)
科学焦点
出版物 (DOI)
数据库
登记号 (Accession)
可用的数据格式 (是否提供矩阵?)

孟祥序等 (Meng et al., 2021)
白化突变体 vs 正常幼苗
10.1186/s12864-021-07873-y
未明确指定
未在摘要中提供

。补充材料仅含分析图表 (热图、GO富集) 。

[作者未知] (2024)
冷胁迫 (DREB 转录因子)
10.1186/s12864-024-10732-1
SRA (NCBI)
SRP129502, SRP092562

。仅提供原始测序读长 (FASTQ) 。

胡丽松等 (Hu et al., 2016)
果实花被片 (糖代谢)
10.1016/j.plantsci.2016.04.009
未明确指定
未在摘要中提供

。数据可能需“向作者索取” 。

[作者未知] (2020)
基因组注释 (面包树/菠萝蜜)
10.3390/genes11010027
CNGB
CNP0000715, CNP0000486

。用于基因注释的原始转录组读长 。

[作者未知] (2023)
基因组测序 (BARI Kanthal-3)
10.3389/fpls.2022.955904
SRA (NCBI)
PRJNA565858

。原始 WGS 和 RNA-Seq 读长 。

[作者未知] (2023)
涉及罗氏菌核病菌 (S. rolfsii)
未知
GSA (CNCB)
CRA009668

。仅提供原始测序数据 。

[作者未知] (2022)
菠萝蜜果园土壤微生物组
10.3389/fmicb.2022.980169
SRA (NCBI)
PRJNA836735

否 (假阳性)。这是宏基因组数据,非菠萝蜜转录组 。

 

 

第二部分:针对 Gene Expression Omnibus (GEO) 数据库的深度分析

 

 

A. 对“GSE”数据库的直接回应

 

本报告确认了用户的隐含怀疑:目前在 NCBI GEO 数据库中,没有与菠萝蜜 (Artocarpus heterophyllus) 植物组织相关的、已发布的差异表达转录组 GSE 数据集。

在 GEO 数据库中检索 "Artocarpus heterophyllus" 或 "jackfruit" 时出现的匹配项,经核实均为“假阳性”(False Positives)。这些数据集的研究主体并非菠萝蜜,而只是在研究背景或材料中提及了菠萝蜜的提取物或产品。

 

B. 澄清 GEO 数据库中的假阳性结果

 

对 GEO 数据库中常见干扰项的分析澄清如下:

  1. GSE196677:该数据集在 中被提及。经核实,这是一项关于银屑病 (psoriasis) 的单细胞转录组研究。Artocarpus heterophyllus 仅作为“湿痹漫” (Shi-Bi-Man) 传统中药的一种成分被提及,该研究的转录组数据来自患者样本,与菠萝蜜植物本身无关。  
  •  
  • GSE24946:该数据集在 中被提及。经核实,这是一项关于K562 人类白血病细胞在药物处理(如 ATO、AMN107)下的转录组研究。Artocarpus heterophyllus (jackfruit) 仅作为 ArtinM(一种从菠萝蜜中提取的凝集素)的来源被提及,该凝集素被用于处理这些癌细胞。研究数据来自人类细胞系。  
  •  
  • GSE95849:该数据集在 中被提及。经核实,这是一项关于糖尿病 (DM/DPN) 的微阵列数据分析。菠萝蜜仅在文中的一篇参考文献 中被提及,该文献讨论的是“jackfruit flour”(菠萝蜜面粉)与肥胖相关糖尿病的关系。研究数据与菠萝蜜转录组无关。  
  •  
  • "GSE" 的歧义性:进一步的检索干扰来自于 "GSE" 这一缩写。在许多食品科学和医学研究中,"GSE" 通常代表“Grape Seed Extract”(葡萄籽提取物),这进一步污染了针对菠萝蜜 GSE 数据集的检索结果。  
  1.  

 

C. 洞察:数据存储库的选择偏好

 

对这一现象的深入分析揭示了一种明显的数据存储库选择偏好:

  1. 观察:如第一部分表 1 所示,确实存在多项近期的 (2020-2024年) 菠萝蜜转录组研究 。  
  •  
  • 数据位置:这些研究的原始数据被存放在 SRA (Sequence Read Archive) 、BioProject 、GSA (Genome Sequence Archive) 和 CNGB (China National GeneBank) 中。  
  1.  
  2. 数据缺失:没有任何一项研究将其数据存放在 GEO 中。
  3. 结论:这表明植物基因组学界,特别是在研究非模式生物(如菠萝蜜)时,以及(可能)亚洲的研究机构,更倾向于使用原始数据归档库 (SRA, GSA, CNGB),而不是 GEO。GEO 数据库历史上更侧重于微阵列数据和经过高度策展的转录组数据集,这可能不符合当前植物基因组学研究(通常与基因组组装和注释相关联)的工作流程。
  4. 对用户的启示:未来的检索策略应停止以 "GSE" 为重点,而应转向在 NCBI BioProject、SRA 以及国家基因库(如 CNCB 的 GSA)中,使用 "Artocarpus heterophyllus" 和 "transcriptome" 作为关键词进行搜索。

 

第三部分:菠萝蜜转录组研究及其数据可用性的个案详查

 

本节详细审查了已识别的关键研究,以确定其数据(特别是计数矩阵)的真实可用状态。

 

A. 个案分析 1:白化突变体研究 (Meng et al. 2021)

 

  • 研究课题:"Third-generation sequencing and metabolome analysis reveal candidate genes and metabolites with altered levels in albino jackfruit seedlings"(第三代测序与代谢组分析揭示菠萝蜜白化幼苗中候选基因和代谢物的改变)。  
  •  
  • 期刊与 DOIBMC Genomics, 22:543. DOI: 10.1186/s12864-021-07873-y 。  
  •  
  • 研究方法:该研究结合了 PacBio SMRT(第三代)长读长测序和高通量 RNA-Seq(第二代)短读长测序,对菠萝蜜的根、茎和叶组织进行了分析 。  
  •  
  • 数据可用性分析
    1. 矩阵的存在性:该研究必然生成了用户所需的计数矩阵。报告中明确提到,他们鉴定了 8,202 个差异表达基因 (DEGs) ;此外,研究中还提到了对样本进行的主成分分析 (PCA) 和皮尔逊相关性分析(图 4a, 4b)。  
  •  
  • 分析推导:进行 DGE 分析以获得 DEG 列表,以及执行 PCA 和相关性聚类,其数学前提是必须拥有一个完整的基因表达矩阵(即 rawCount.matrix 或标准化的 FPKM/TPM 矩阵)。
  • 数据位置调查:然而,该研究的补充材料链接指向一个 Figshare 页面 。对该补充文件的分析 表明,"Additional file 1" 文件大小仅为 1.12 MB,其内容包含分析的结果图示,例如:  

 

  • 图 S1: GO 富集分析图 。  
  •  
  • 图 S2: KEGG 通路分析图 。  
  •  
  • 图 S4: 差异表达转录因子 (TF) 基因的热图 (Heat map) 。  
      •  
    1. 结论:这是一个典型的“数据海市蜃楼”。研究者提供了数据的可视化结果(热图),但未提供生成该热图所依赖的原始数字矩阵。1.12 MB 的文件大小也证实了它不可能包含一个完整的计数矩阵。在相关摘要中未找到该研究的 SRA 或 BioProject 登记号。

 

B. 个案分析 2:果实糖代谢研究 (Hu et al. 2016)

 

  • 研究课题:"Transcriptome and selected metabolite analyses reveal points of sugar metabolism in jackfruit (Artocarpus heterophyllus Lam.)"(转录组和特定代谢物分析揭示菠萝蜜果实糖代谢的关键点)。  
  •  
  • 期刊与 DOIPlant Science, 248:45-56. DOI: 10.1016/j.plantsci.2016.04.009 。  
  •  
  • 研究方法:使用 Illumina HiSeq 2500 平台对果实花被片 (perianth) 进行转录组测序 。  
  •  
  • 数据可用性分析
    1. 矩阵的存在性:这是一项关于菠萝蜜果实发育的基础性研究,被广泛引用 。研究明确提及分析了 "gene counts"(基因计数),因此该矩阵文件确定存在。  
  •  
  • 数据位置调查:该研究发表于 2016 年,当时的数据归档标准不如现在严格。分析多个来源的引用信息发现,该研究的数据可用性声明很可能是“按需提供”。例如, 提到“No full-text available. Request Full-text Paper PDF.”(无全文。可向作者索取全文 PDF)。 在引用该文献的上下文中提到了一句标准短语:“关于数据可用性的询问应直接向作者提出。”  
  •  
  • 结论:对于这项研究,获取 rawCount.matrix 的唯一途径很可能是直接通过电子邮件联系该文章的通讯作者(例如,根据 提及的作者信息,联系华中农业大学的胡丽松博士)。  
    1.  

 

C. 个案分析 3:冷胁迫与 DREB 因子研究 (2024)

 

  • 研究课题:。  
  •  
  • 期刊与 DOIBMC Genomics. DOI: 10.1186/s12864-024-10732-1 。  
  •  
  • 研究方法:通过 RNA-Seq 分析冷胁迫下的基因表达谱 。  
  •  
  • 数据可用性分析
    1. 数据位置调查:这是目前发现的数据路径最清晰的研究。其数据可用性声明 非常明确:“用于 RNA-Seq 的原始读长 (Raw reads) 已从 NCBI 数据库下载,登记号为 SRP129502 (https://www.ncbi.nlm.nih.gov/sra/?term=SRP129502) 和 SRP092562 (https://www.ncbi.nlm.nih.gov/sra/SRP092562)”。  
    1.  
    2. 结论:这项 2024 年的研究完美例证了第一部分 B 节中提到的“系统性问题”。作者遵守了规定,将原始数据 (FASTQ) 存放在 SRA,但未提供处理后的计数矩阵。
    3. 用户的最佳选择:这是用户最现实、最可靠的数据来源。该数据是最新发布的,并且 SRA ID 清晰明确。缺点是,这无法满足用户“避免生物信息学流程”的初衷。用户必须自行下载并处理这些 SRA 文件。

 

D. 基因组注释项目中的转录组数据分析

 

  • 研究焦点:多项研究使用 RNA-Seq 的主要目的不是为了进行差异基因表达 (DGE) 分析,而是为了基因组注释 (Genome Annotation)。
  • 已识别的数据
    • PRJNA565858:与 'BARI Kanthal-3' 品种的全基因组测序相关 。包含 WGS 数据以及用于辅助注释的 RNA-Seq 数据。  
  •  
  • CRA009668:存放在 GSA(国家基因库数据中心)。包含“原始测序数据”。  
  •  
  • CNP0000486 / CNP0000715:存放在 CNGB(中国国家基因库)。明确标记为“基因组和转录组数据”。  
    •  
  • 关键区别与启示(注释 vs DGE)
    1. 目的差异:DGE 研究(如白化突变体研究 )需要设置严格的生物学重复和对照组(例如,3 个白化叶片 vs 3 个绿色叶片)。  
  •  
  • 注释策略:基因组注释项目(如 )的目标是尽可能多地捕获基因转录本。其 RNA-Seq 样本通常是一个包含多个组织(如根、茎、叶、花、果实)的混合池 (pooled sample)。  
    1.  
    2. 对用户的意义:如果用户下载并处理这些来自基因组注释项目的原始数据(例如 CNP0000486),他们最终得到的 rawCount.matrix 将不适用于 DGE 分析(即比较“条件 A vs 条件 B”)。该矩阵将反映的是不同基因在混合组织中的表达丰度,或(如果样本未混合)用于组织特异性表达分析(例如,“基因 A 在叶片中表达,在根中不表达”)。

 

第四部分:数据获取的策略与技术路径建议

 

鉴于没有可直接下载的原始计数矩阵,本报告提供以下两种策略以获取所需数据。

 

A. 策略一:直接联系作者(推荐用于 Hu et al. 2016)

 

对于那些发表较早、影响力较大,且数据可用性声明模糊的研究(如 Hu et al. 2016 ),最高效(尽管成功率不确定)的方法是直接联系通讯作者。  

 

行动建议: 起草一封专业的电子邮件(鉴于作者单位 ,建议使用英文或中英双语),明确指出您的请求。  

 

  • 邮件模板(参考)
    • 主题:Request for processed data (Raw Gene Count Matrix) for "Transcriptome...in jackfruit" (DOI: 10.1016/j.plantsci.2016.04.009)
    • 正文:尊敬的 [作者姓氏] 教授/博士:我们正在进行一项关于菠萝蜜 (Artocarpus heterophyllus) 的生物信息学分析,并对您团队 2016 年发表在 Plant Science 上的杰出工作(DOI: 10.1016/j.plantsci.2016.04.009)非常感兴趣。为了便于我们进行下游的比较转录组学分析,我们冒昧地请求您是否能提供该研究中用于差异表达分析的原始基因计数矩阵 (raw gene counts matrix) 文件(例如,一个以基因为行、样本为列的.txt 或.csv 文件)?...

 

B. 策略二:自行处理原始数据(必要的解决方案)

 

此策略是唯一可以保证获取最新数据的途径,尽管它需要用户投入时间和计算资源来执行生物信息学流程。

行动建议 1:锁定目标原始数据

  • 首选(用于 DGE 分析):2024 年的冷胁迫研究 。  
  •  
    • SRA 登记号:SRP129502, SRP092562。
  • 备选(用于基因组注释/组织特异性)
    • CNGB 登记号:CNP0000486(转录组)。  
  •  
  • GSA 登记号:CRA009668 。  
    •  

行动建议 2:标准生物信息学工作流程(FASTQ 至 Count Matrix)

以下是生成用户所需 rawCount.matrix 的标准流程:

  1. 数据下载 (Data Retrieval)
    • 对于 SRA 数据 (SRP129502),使用 NCBI 的 sra-tools(例如 prefetch 和 fasterq-dump 命令)下载 FASTQ 文件。
    • 对于 GSA/CNGB 数据,请访问 CNCB 或 CNGB 网站,按照其指引下载。
  2. 参考基因组 (Reference Genome)
    • 获取最新的 A. heterophyllus 参考基因组(FASTA 文件)和基因注释文件 (GFF/GTF)。可从相关基因组项目获取,例如 PRJNA565858 或 CNP0000715 对应的数据库中。  
    •  
  • 质量控制 (Quality Control)
    • 使用 FastQC 对所有原始 FASTQ 读长进行质量评估。
  • 序列修剪 (Trimming)
    • 使用 Trimmomatic 或 fastp 移除测序接头 (adapters) 和低质量碱基 (low-quality bases)。  
    •  
  • 序列比对 (Alignment)
    • 使用支持剪接的比对工具,如 HISAT2 或 STAR,将修剪后的读长比对到参考基因组上。  
    •  
  • 读长计数 (Quantification)
    • (关键步骤) 使用 featureCounts (Subread 包) 或 htseq-count 工具,结合步骤 2 中获取的 GFF/GTF 注释文件,对每个基因(或外显子)上的比对读长进行计数。  
    •  
  • 最终产出 (Output)
    • 步骤 6 的输出即为用户最初寻找的原始计数矩阵 (rawCount.matrix),通常是一个以基因 ID 为行、样本 ID 为列的制表符分隔的文本文件 (TSV)。