请问如何得到人基因组长度的contig数和scaffold长度和GC含量?谢谢大家了

统计文件test.genome.fa中每一条contig序列的长度、GC含量(GC占所有非N序列的比例)、重复序列含量(小写字母占所有非N序列的比例)

以上这条序列即为scaffold序列。其包括两条以N为分割的contig序列

#根据contig长度进行排序 #输出每一条contig的长度、CG含量、重复序列含量
  • 本文只是按照自己的需求翻译了HaploMerger2提供的手册部分内容。HaploMerger2的帮助文档写的非常...

  • shenwei爪謌开发的处理Fasta/Fastq文件的万能工具之前处理fq/fa文件时花时间写的一些脚本发现在...

  • Perl 命令行实战1 - fasta文件的相关操作 注:本文会不断更新...... 之前的5篇简书尛文已经说明了...

  • 写在前 我们感觉自己活得枯萎, 外在养分进入不了内里 因为从内核本源我们还在沉睡, 空心自然成不了大树。 01...

对于不同kmer或者不同软件的人基因組长度组装结果我们通常会通过N50等指标来进行评估。

对于一个组装出来的序列不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然後从第一个序列开始将长度进行累加,直到累加的长度超过了总长度的50%此时,最后一个累加的contig的长度就是N50的长度示意图如下

上图中N50嘚长度就是60,和N50的概念类似还有N75, N90等说法,这些指标可以统称为NxNx越大,说明组装出来的片段长度越长一定程度上证实了组装结果越好。

除了Nx指标外还有Lx指标,比如L50,指的是累加的contig的个数示意图如下

上图中L50的值是3。在实际分析中我们可以通过现有软件来计算N50, L50等指标quast就是最常用的软件之一。该软件有在线服务链接如下

quast基于python开发,以来matplotlib库进行绘图保证python和matplotlib安装好,然后直接下载源代码解压缩就可鉯使用了。

-t参数指定线程数-o参数指定输出结果的目录。运行完成后输出目录会生成如下文件

quast 会统计不同长度的contig的个数,以及N50,L50等指标礻例结果如下

横坐标为Nx,纵坐标为Nx的值示意图如下

横坐标为contig个数,纵坐标为累加的长度示意图如下

窗口的GC含量分布图,quast将每个contig划分为長度100bp的窗口统计每个窗口的GC含量, 横坐标为GC含量,纵坐标为窗口个数, 示意图如下

contig GC含量分布图对于每个contig,统计GC含量,横坐标为GC含量纵坐标為contig个数,示意图如下

最好的情况是对方能提供已经发表的近源物种根据近源物种分析以上信息,尤其是GC含量以及对应的GC分布重复程度。

根据人基因组长度大小和具体情况选择个大概的k值根据“测序X数推导说明.pdf”制定用于构建contig所需的数据量以及所需的构建的文库数量。对于植物人基因组长度一般考虑的是大kmer(>31)动物的話一般在27左右,具体根据人基因组长度情况调整需要在短片段数据量达到20X左右的时候进行kmer分析。Kmer分析正常后继续加测数据以达到最后期望的数据量。

原始数据-数据过滤-纠错-kmer分析-denovo组装

发布了0 篇原创文章 · 获赞 16 · 访问量 9万+

我要回帖

更多关于 人基因组长度 的文章

 

随机推荐