使用interproscan5.54-87.0进行本地化注释

1.InterproScan 5.54-87.0 配套的Panther为 Panther15.0

Panther下载:https://pantherdb.org/downloads/index.jsp

2.修改interproscan.properties文件

将 binary.getorf.parser.filtersize=8  修改为3

3.

 ./interproscan.sh -t n -i xaa -f XML -d erecta/ -appl Pfam,PANTHER -goterms -iprlookup -cpu 6

4.

 ./interproscan.sh -t p -i xaa.pep.fasta -f TSV,GFF3,JSON -d erecta/ -appl Pfam,PANTHER,cdd,gene3d,superfamily -goterms -iprlookup -cpu 8

eggnog-mapper注释方法

1.打开eggnog网站,点击“浏览文件”,选择要注释的文件,并在下方填写自己的邮箱

2.点击最下方的submit,提交注释申请后,填写的邮箱会收到一封网站发来的邮件

3.打开该邮件,点击“Click to manage your job”,跳转至eggnog页面,点击start开始工作

4.一定时间后会在邮箱中收到注释完成的提醒邮件,点击“Click to manage your job”,及时下载注释结果

其他:提交注释申请前,可在eggnog页面下方的Annotation options的Taxonomic Scope中选择与待注释文件比照的物种,以得到更精确的注释结果

本地blast步骤

# 本地化基因组数据库构建
mkdir /opt/biosoft/ncbi-blast-2.9.0+/db/
cd /opt/biosoft/ncbi-blast-2.9.0+/db/
# 构建核酸数据库
#makeblastdb -in ~/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta -dbtype nucl -title Malassezia_sympodialis_V01.genome -parse_seqids -out #Malassezia_sympodialis_V01.genome -logfile Malassezia_sympodialis_V01.genome.log
# 构建蛋白质数据库

MCscanX做共线性分析

## g. 使用MCScanX进行共线性区块分析
mkdir -p /home/train/14.genome_comparison/g.MCScanX
cd /home/train/14.genome_comparison/g.MCScanX

# 准备2个物种基因组的蛋白质序列文件和GFF文件
ln -s ../a.preparing_data/laame.geneModels.gff3 ./
ln -s ../a.preparing_data/laame.protein.fasta ./
ln -s ../a.preparing_data/laame.genome.fasta ./
ln -s ../a.preparing_data/plost.geneModels.gff3 .
ln -s ../a.preparing_data/plost.protein.fasta .
ln -s ../a.preparing_data/plost.genome.fasta ./

使用gffread提取CDS和蛋白序列&由bp_genbank2gff3.pl从gbff生成gff3文件

一、使用gffread提取CDS和蛋白序列

gffread 是一个高效工具,支持从 GFF3 文件中提取 CDS 和 蛋白序列。

conda install -c bioconda gffread

提取CDS和蛋白序列

  1. 提取 CDS 序列

    /opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -x cds.fasta

    • -g genome.fasta:提供参考基因组序列。
    • -x cds.fasta:生成的 CDS 序列文件。
  2. 提取蛋白质序列

    /opt/biosoft/cufflinks-2.2.1.Linux_x86_64/gffread example.gff3 -g genome.fasta -y protein.fasta

    • -y protein.fasta:生成的蛋白质序列文件。

注意事项

学习分析下这个js文件-switch-case

$(function(){
$("#download").click(function(){
var dir;
var suffix;
switch($("#type").val())
{
case "0":
dir = "00.genomeSeq";
suffix = "_genome.txt.gz";
break;
case "1":
dir = "01.cdsSeq";
suffix = "_cds.fa.gz";
break;
case "2":
dir = "02.pepSeq";
suffix = "_pep.fa.gz";
break;
default:
return;
}

基因家族分析Docker版使用方法

#登服务器

ssh train@10.31.23.13

输入密码

#切换root用户

sudo su -

 cd /home/train/

#进入docker 内部,已经布置好所有基因家族分析的软件
 sh geneFamilyRun.sh

#具体流程(WRKY基因家族为例)

less -S w.sh

#根据列出的流程操作就可以,(也可以先下载拟南芥的序列练习)

#退出Docker容器

exit

多重哈希练习

[train@localhost sunpengbin]$ less duochong_hash.pl
#!/usr/bin/env perl
use strict;

网页翻译

immersivetranslate.com

打开网站后下滑,在“安装浏览器插件”位置找到电脑对应浏览器(推荐edge或chrome),获取插件后更改设置

下载转录组数据

#在ncbi根据物种名得到所有PRJNA SRP信息

https://www.ncbi.nlm.nih.gov/sra

#根据SRP(有可能DRP等)号(如SRP280313)在下面网站搜索

https://www.ncbi.nlm.nih.gov/Traces/study

同时记录所有实验信息到一个excel表格

#复制所有SRR号,如下

SRR12603273
SRR12603274
SRR12603275
SRR12603276
SRR12603277
SRR12603278

#登陆服务器

ssh root@IP

输入密码

#进入文件夹

(cd:切换工作目录)

cd /home/train/BMM

mkdir -p SRP280313

Pages

Subscribe to 我们的生信博客-QFNU RSS