orthomcl传真机的使用方法用

下次自动登录
现在的位置:
OrthoMCL使用详解
1.Orthomcl是用来干嘛的?
我们都知道,我们在注释完一些基因组后,会拿到大量的蛋白,而这些蛋白,孤零零的放在那,你不觉得别扭吗?除了常规的pfam、interpro做完了,再做点什么呢?聚个类,找个家族,看看家族水平上的进化什么的貌似也蛮不错,今天就介绍一下如何利用orthomcl来做蛋白家族吧。
Ortho groups proteins into “ortholog groups.” That name is a little misleading
because the groups contain proteins related by:
orthology (recent descent)
in-paralogy (recent duplication)
co-orthology (recent descent and duplication).
Orthomcl会将你所给的各个种的蛋白使用mcl的方法聚到一起,具有很强的鲁棒性
2.去哪下载?
用最新版本的orthomclSoftware-v2.0.3.tar.gz吧
这个就不说了,解压即可
4.所需辅助模块
(1)UNIX:Orth Pairs program 仅仅在UNIX上进行过测试
program也仅仅和UNIX兼容
(2):我们推荐NCBI ,有两个原因,从理论上来讲,鼻祖;从实际运行商来讲,NCBI 支持tab分割的output格式,这个我们将在下面的第7步用到.
(3)Database:从V1.4版,Orthomcl就开始用数据库的方式管理数据,这样大大的加强和提升了运行效率,在这你可以选择或者oracle,下文我选择来进行阐述.
(4)Hardware:推荐:memory至少4G,disk至少100G
(5)Perl:需要standare 和DBI
(6) program:参照
(7)Time:时间复杂度:
all-v-all Balst在500个cpu的cluster上大概运行3天
使用orthmclPaire找pairs大概需要16h
找groups大概需要2h
5.详细过程
(1)安装和配置相关的数据库文件:这个靠你自己了。
(2)安装mcl
从这里下载
(3)安装Orthmcl:
tar -zxvf orthomclSoftware-v2.0.3.tar.gz
解压完之后,你将会看见这样的文件结构
orthomclSoftware/
UserGuide.txt
orthomcl.config.template
下面就是下面你要做各步骤的一些脚本
将doc下的orthomcl.config.template配置文件模版拷出来,修改里面的参数配置
# this config assumes a
database named 'orthomcl'.
adjust according
# to your situation.
dbVendor= #你所选择的数据库,在这我选择使用
dbConnectString=dbi::orthomcl:node69:3310 #设置你使用的数据库和hostname及其使用端口,默认是3307,在这由于我的服务器上这些端口都被占了,所以我选择3310
dbLogin=xiaenhua #你的用户名
dbPassword=xeh #密码
similarSequencesTable=SimilarSequences #下面都是中间产生的各种表
orthologTable=Ortholog
inParalogTable=InParalog
coOrthologTable=CoOrtholog
interTaxonMatchView=InterTaxonMatch
percentMatchCutoff=50
#Coverage cutoff值
这里选择50%的Coverage,视你自己而定
evalueExponentCutoff=-5
#blast 筛选的e-value
用过blast的都不默认
oracleIndexTblSpc=NONE
(4)orthomclInstallSchema
这一部分就是将你刚才配置的config文件,对进行配置,建立在你所create的database下,建立一些表,Note:在做这步前,请先在你的中新建一个数据库,如create database orthomcl,下面我就使用这个数据库来操作数据。
EXAMPLE: orthomclSoftware/bin/orthomclInstallSchema my_orthomcl_dir/orthomcl.config
my_orthomcl_dir/install_schema.log
(5)orthomclAdjustFasta
该步将会将你的pep文件转换为orthmcl所要求的文件,其实也就是一个改写的过程,格式:
EXAMPLE: orthomclSoftware/bin/orthomclAdjustFasta hsa Homo_sapiens.NCBI36.53.pep.all.fa 1
注:hsa表示你的种名
hsa Homo_sapiens.NCBI36.53.pep.all.fa 你的蛋白序列
1 表示将在你的每个蛋白名前加上种名,并且用|隔开
(6)orthomclFilterFasta
这一步将会对你刚才改写的蛋白文件进行过滤,去除长度小于XX(自己设定),stop coden所占百分比的序列
EXAMPLE: orthomclSoftware/bin/orthomclFilterFasta my_orthomcl_dir/compliantFasta 10 20
注:10 pep序列长度不低于10
20 stop coden所占的百分比不高于20%
(7)All-v-all
这一步你必须自己做,即:将你上一步得到的goodProteins.fasta进行多对多的blast,参数建议设置
-m 8 -F F -b 1000 -v 1000 -a 2
EXAMPLE:blastall -p blastp -i goodProteins.fasta -d goodProteins.fasta -m 8 -F F -b 1000 -v 1000 -a 2 -o all_VS_all.out.tab
这一步事实上为提供相似矩阵
(8)orthomclBlastParser
将上一步得到的blast比对结果进行解析,使用我们开始设好的阈值进行筛选,e-value:1e-5 ;Coverage:50%
EXAMPLE: orthomclSoftware/bin/orthomclBlastParser my_blast_results my_orthomcl_dir/compliantFasta && my_orthomcl_dir/similarSequences.txt
(9)orthomclLoadBlast
这一步,将我们刚才解析好的blast结果导入到中,便于下面的数据操作
EXAMPLE: orthomclSoftware/bin/orthomclLoadBlast my_orthomcl_dir/orthomcl.config my_orthomcl_dir/similarSequences.txt
在这需要提供我们先前配置好的config文件
(10)orthomclPairs
这一步,将在database中SimilarSequences表中的数据,进行pairs的运算,产生三个表格存在
- PotentialOrthologs table
- PotentialInParalogs table
- PotentialCoOrthologs table
EXAMPLE: orthomclSoftware/bin/orthomclPairs my_orthomcl_dir/orthomcl.config my_orthomcl_dir/orthomcl_pairs.log cleanup=no
(11)orthomclDumpPairsFiles
这一步,将数据库中pairs表进行处理,生成mclInput文件和另外一个文件夹pairs,在这个pairs中,包含着这些蛋白之间的关系,格式如下:
- protein A
- protein B
- their normalized score (See the Orthomcl Algorithm Document).
这一步开始对上一步给出的输出文件,进行mcl操作,开始聚类
EXAMPLE: orthomclSoftware/bin/orthomclDumpPairsFile my_orthomcl_dir/orthomcl.config
输出文件为mclOutput文件
EXAMPLE: mcl my_orthomcl_dir/mclInput --abc -I 1.5 -o my_orthomcl_dir/mclOutput
这里比较重要的参数是-I 具体看mcl文档
(13)orthomclMclToGroups
将mcl的输出结果转换为groups.txt
在这个文件中,每一行表示一个家族
EXAMPLE:orthomclMclToGroups my_prefix 1 & mclOutput & groups.txt
注:my_prefix 指定在groups.txt中每个家族的前缀,如:GF_ 则在groups.txt中,每个家族以GF_开始
1 表示家族从1开始编码
到这一步位置,你的蛋白家族就算是完工了,groups.txt中的格式如下:
GF_1: r5|r5_3__3_4_4_3_40295
GF_2: r5|r5__3__3___9656 r5
GF_3: .....
每行代表一个家族,找到了这些家族,下面就可以开始你的其他分析了
来源:.cn/s/blog_5d1edf6a01012imb.html
【上篇】【下篇】
您可能还会对这些文章感兴趣!
2000人的生物信息学QQ群
生物信息学①群 :(已满)
生物信息学②群 :(开放中)
请先在注册,凭PLoB的用户名验证入群。
生物信息快速问答社区
百度站内搜索
生物信息培训班推荐
我的收藏夹 &&小结:OrthoMCL使用详解.(附下载地址)
一直都想总结一下,以前自己做过、用过的一些东西,仔细一想,又不知该从何总结起,就捡最近的说起吧,先介绍下Orthomcl.
1.Orthomcl是用来干嘛的?
我们都知道,我们在注释完一些基因组后,会拿到大量的蛋白,而这些蛋白,孤零零的放在那,你不觉得别扭吗?除了常规的pfam、interpro做完了,再做点什么呢?聚个类,找个家族,看看家族水平上的进化什么的貌似也蛮不错,今天就介绍一下如何利用orthomcl来做蛋白家族吧。
OrthoMCL groups proteins into “ortholog groups.” That name is a
little misleading
because the groups contain proteins related by:
orthology (recent descent)
in-paralogy (recent duplication)
co-orthology (recent descent and duplication).
Orthomcl会将你所给的各个种的蛋白使用mcl的方法聚到一起,具有很强的鲁棒性
2.去哪下载?
用最新版本的orthomclSoftware-v2.0.3.tar.gz吧
这个就不说了,解压即可
4.所需辅助模块
(1)UNIX:OrthMCL Pairs program 仅仅在UNIX上进行过测试
&&&&&&&&&&
MCL program也仅仅和UNIX兼容
(2)BLAST:我们推荐NCBI BLAST,有两个原因,从理论上来讲,鼻祖;从实际运行商来讲,NCBI
BLAST支持&
tab分割的output格式,这个我们将在下面的第7步用到.
(3)Database:从V1.4版,Orthomcl就开始用数据库的方式管理数据,这样大大的加强和提升了运行效率,在
这你可以选择mysql或者oracle,下文我选择mysql来进行阐述.
(4)Hardware:推荐:memory至少4G,disk至少100G
(5)Perl:需要standare perl和DBI
(6)MCL program:参照
(7)Time:时间复杂度:all-v-all Balst在500个cpu的cluster上大概运行3天
&&&&&&&&&&&&&&&&&&&&&&
使用orthmclPaire找pairs大概需要16h
&&&&&&&&&&&&&&&&&&&&&&
MCL找groups大概需要2h
5.详细过程
(1)安装和配置相关的数据库文件:这个靠你自己了。
(2)安装mcl
从这里下载&
(3)安装Orthmcl:
tar -zxvf orthomclSoftware-v2.0.3.tar.gz
解压完之后,你将会看见这样的文件结构
& orthomclSoftware/
UserGuide.txt
orthomcl.config.template
bin下面就是下面你要做各步骤的一些脚本
将doc下的orthomcl.config.template配置文件模版拷出来,修改里面的参数配置
# this config assumes a mysql database named
'orthomcl'.& adjust according
# to your situation.
dbVendor=mysql #你所选择的数据库,在这我选择使用mysql
dbConnectString=dbi:mysql:orthomcl:node69:3310
#设置你使用的数据库和hostname及其使用端口,默认是
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&3307,在这由于我的服务器上这些端口都被占了,所以我选择3310
dbLogin=xiaenhua #你mysql的用户名
dbPassword=xeh #密码
similarSequencesTable=SimilarSequences #下面都是中间产生的各种表
orthologTable=Ortholog
inParalogTable=InParalog
coOrthologTable=CoOrtholog
interTaxonMatchView=InterTaxonMatch
percentMatchCutoff=50& #Coverage
cutoff值& 这里选择50%的Coverage,视你自己而定
evalueExponentCutoff=-5& #blast
筛选的e-value& 用过blast的都不默认
oracleIndexTblSpc=NONE
(4)orthomclInstallSchema
这一部分就是将你刚才配置的config文件,对mysql进行配置,建立在你所create的database下,建立一些表,Note:在做这步前,请先在你的mysql中新建一个数据库,如create
database orthomcl,下面我就使用这个数据库来操作数据。
orthomclSoftware/bin/orthomclInstallSchema
my_orthomcl_dir/orthomcl.config
my_orthomcl_dir/install_schema.log
(5)orthomclAdjustFasta
该步将会将你的pep文件转换为orthmcl所要求的文件,其实也就是一个改写的过程,格式:
EXAMPLE: orthomclSoftware/bin/orthomclAdjustFasta hsa
Homo_sapiens.NCBI36.53.pep.all.fa 1
注:hsa表示你的种名
Homo_sapiens.NCBI36.53.pep.all.fa你的蛋白序列
表示将在你的每个蛋白名前加上种名,并且用|隔开
(6)orthomclFilterFasta
这一步将会对你刚才改写的蛋白文件进行过滤,去除长度小于XX(自己设定),stop coden所占百分比的序列
EXAMPLE: orthomclSoftware/bin/orthomclFilterFasta
my_orthomcl_dir/compliantFasta 10 20
注:10 pep序列长度不低于10
20&stop coden所占的百分比不高于20%
(7)All-v-all BLAST
这一步你必须自己做BLAST,即:将你上一步得到的goodProteins.fasta进行多对多的blast,参数建议设置
-m 8 -F F -b 1000 -v 1000 -a 2
EXAMPLE:blastall -p blastp -i goodProteins.fasta -d
goodProteins.fasta -m 8 -F F -b 1000 -v 1000 -a 2 -o
all_VS_all.out.tab
这一步事实上为MCL提供相似矩阵&
(8)orthomclBlastParser
将上一步得到的blast比对结果进行解析,使用我们开始设好的阈值进行筛选,e-value:1e-5 ;Coverage:50%
EXAMPLE: orthomclSoftware/bin/orthomclBlastParser
my_blast_results my_orthomcl_dir/compliantFasta
my_orthomcl_dir/similarSequences.txt
(9)orthomclLoadBlast&
这一步,将我们刚才解析好的blast结果导入到mysql中,便于下面的数据操作
EXAMPLE: orthomclSoftware/bin/orthomclLoadBlast
my_orthomcl_dir/orthomcl.config
my_orthomcl_dir/similarSequences.txt
在这需要提供我们先前配置好的config文件
(10)orthomclPairs
这一步,将在database中SimilarSequences表中的数据,进行pairs的运算,产生三个表格存在mysql
& - PotentialOrthologs table
& - PotentialInParalogs table
& - PotentialCoOrthologs table
EXAMPLE: orthomclSoftware/bin/orthomclPairs
my_orthomcl_dir/orthomcl.config my_orthomcl_dir/orthomcl_pairs.log
cleanup=no
(11)orthomclDumpPairsFiles
这一步,将数据库中pairs表进行处理,生成mclInput文件和另外一个文件夹pairs,在这个pairs中,包含着这些蛋白之间的关系,格式如下:
&& - protein A
&& - protein B
&& - their normalized score (See
the Orthomcl Algorithm Document).
这一步开始对上一步给出的输出文件,进行mcl操作,开始聚类
EXAMPLE: orthomclSoftware/bin/orthomclDumpPairsFile
my_orthomcl_dir/orthomcl.config
输出文件为mclOutput文件
EXAMPLE: mcl my_orthomcl_dir/mclInput --abc -I 1.5 -o
my_orthomcl_dir/mclOutput
这里比较重要的参数是-I 具体看mcl文档
(13)orthomclMclToGroups
将mcl的输出结果转换为groups.txt
在这个文件中,每一行表示一个家族
EXAMPLE:orthomclMclToGroups my_prefix 1 &
mclOutput & groups.txt
注:my_prefix 指定在groups.txt中每个家族的前缀,如:GF_
则在groups.txt中,每个家族以GF_开始
表示家族从1开始编码
到这一步位置,你的蛋白家族就算是完工了,groups.txt中的格式如下:
GF_1: r5|r5_3__3_4_40330
r5|r5_3_40295
GF_2: r5|r5__3__3_3914
r5|r5__9656 r5
GF_3: .....
每行代表一个家族,找到了这些家族,下面就可以开始你的其他分析了
ok,先说到这,下面的分析,改天再补充哈.
如有没说明白的,详情请见Orthomcl的帮助文档,就在docs下的Usrguide.txt
希望对你有帮助.
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。groups.txt就是最终的结果文件。文件中的每一行代表可能存在的蛋白质家族。
文章来源:/forum.php?mod=viewthread&tid=46
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:16055次
排名:千里之外
原创:22篇
转载:27篇
(6)(1)(1)(1)(3)(6)(4)(9)(20)丁香客App是丁香园社区的官方应用,聚合了丁香园论坛和丁香客的精彩内容。医生可通过丁香客App浏览论坛,也可以在这个医生群集的关系网络中分享和互动,建立更广泛的学术圈子。
扫描二维码下载
今日:1 | 主题:82586 | & 收藏本版
每发1个新帖可以获得0.5个丁当奖励
求助:paml软件的使用
求助:paml软件的使用
分享到哪里?
这个帖子发布于7年零249天前,其中的信息可能已发生改变或有所发展。
想做分歧时间分析,打算用paml软件,但小弟我计算机水平有限,始终不得其法,连门都摸不着,在此拜师学艺,望不吝赐教!首先想弱弱的问一句怎么运行里面的程序啊,我打开"命令提示符"后,按照说明书上说的能打开control file, 但怎么运行自己的数据呢?
回复:求助:paml软件的使用
分享到哪里?
共同学写学习
回复:求助:paml软件的使用
分享到哪里?
首先寻找相关control文件到该相应程序的目录下,双击该程序打开就可以的.如果自己算数据,修改control文件即可.仔细看下说明书!
回复:求助:paml软件的使用
分享到哪里?
能不能具体讲一下用法,以及输出结果的含义是什么?下面是Codeml的运行结果,看不懂,能解释吗?1 h-m-p 0.1
6 0.0007 26 | 0/9 2 h-m-p 0.0 67.9407 +YYYCCC
5 0.0008 46 | 0/9 3 h-m-p 0.1 120.3656 +CCCCC
4 0.0020 67 | 0/9 4 h-m-p 0.8 78.6147 YYCCC
4 0.0005 85 | 0/9 5 h-m-p 0.4 21.2488 CCCC
3 0. | 0/9 6 h-m-p 0.7 17.2993 CCC
2 0. | 0/9 7 h-m-p 0.8 2.7889 YC
1 0. | 0/9 8 h-m-p 0.2 0.9952 CC
1 0. | 0/9 9 h-m-p 0.0 0.2734 YC
1 0. | 0/910 h-m-p 0.3 0.3525 ++YCCC
3 0. | 0/911 h-m-p 1.0 0.0123 CCCC
3 2. | 0/912 h-m-p 1.0 0.0233 YCCC
3 2. | 0/913 h-m-p 1.0 0.0317 CCC
2 1. | 0/914 h-m-p 1.0 0.0024 YC
1 1. | 0/915 h-m-p 1.0 0.0002 Y
0 1. | 0/916 h-m-p 1.0 0.0000 Y
0 1. | 0/917 h-m-p 1.0 0.0000 Y
0 1. | 0/918 h-m-p 1.0 0.0000 Y
0 0. | 0/919 h-m-p 1.0 0.0000 Y
0 0. | 0/920 h-m-p 1.0 0.0000 C
0 1. | 0/921 h-m-p 1.0 0.0000 ---------C
0 0.ut..nL = -53 lfun, 0 eigenQc, 4077 Peconstructed ancestral states go into file rst.arginal reconstruction. Node 7: lnL = - Node 8: lnL = - Node 9: lnL = - Node 10: lnL = -oint reconstruction. 245760 bytes for conP1, adjustedime used: 0:20
回复:求助:paml软件的使用
分享到哪里?
能不能具体讲一下用法,以及输出结果的含义是什么?下面是Codeml的运行结果,看不懂,能解释吗?1 h-m-p 0.1
6 0.0007 26 | 0/9 2 h-m-p 0.0 67.9407 +YYYCCC
5 0.0008 46 | 0/9 3 h-m-p 0.1 120.3656 +CCCCC
4 0.0020 67 | 0/9 4 h-m-p 0.8 78.6147 YYCCC
4 0.0005 85 | 0/9 5 h-m-p 0.4 21.2488 CCCC
3 0. | 0/9 6 h-m-p 0.7 17.2993 CCC
2 0. | 0/9 7 h-m-p 0.8 2.7889 YC
1 0. | 0/9 8 h-m-p 0.2 0.9952 CC
1 0. | 0/9 9 h-m-p 0.0 0.2734 YC
1 0. | 0/910 h-m-p 0.3 0.3525 ++YCCC
3 0. | 0/911 h-m-p 1.0 0.0123 CCCC
3 2. | 0/912 h-m-p 1.0 0.0233 YCCC
3 2. | 0/913 h-m-p 1.0 0.0317 CCC
2 1. | 0/914 h-m-p 1.0 0.0024 YC
1 1. | 0/915 h-m-p 1.0 0.0002 Y
0 1. | 0/916 h-m-p 1.0 0.0000 Y
0 1. | 0/917 h-m-p 1.0 0.0000 Y
0 1. | 0/918 h-m-p 1.0 0.0000 Y
0 0. | 0/919 h-m-p 1.0 0.0000 Y
0 0. | 0/920 h-m-p 1.0 0.0000 C
0 1. | 0/921 h-m-p 1.0 0.0000 ---------C
0 0.ut..nL = -53 lfun, 0 eigenQc, 4077 Peconstructed ancestral states go into file rst.arginal reconstruction. Node 7: lnL = - Node 8: lnL = - Node 9: lnL = - Node 10: lnL = -oint reconstruction. 245760 bytes for conP1, adjustedime used: 0:20
回复:求助:paml软件的使用
分享到哪里?
我也想知道啊!
回复:求助:paml软件的使用
分享到哪里?
你可以用BEAST,专门做分歧时间的。
回复:求助:paml软件的使用
分享到哪里?
结果在mcl文件中-_-!,如果你没改outfile路径的话。看看说明书哈,很详细的。。。人不能太懒~
回复:求助:paml软件的使用
分享到哪里?
各种参数的选择是很头痛,没经验是很难
关于丁香园 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
原绿球藻和聚球藻密码子使用偏好和适应性进化研究
下载积分:1500
内容提示:原绿球藻和聚球藻密码子使用偏好和适应性进化研究
文档格式:PDF|
浏览次数:1|
上传日期: 16:30:34|
文档星级:
该用户还上传了这些文档
原绿球藻和聚球藻密码子使用偏好和适应性进化研究.PDF
官方公共微信

我要回帖

更多关于 sumif函数的使用方法 的文章

 

随机推荐