用Amos软件包里面的minimus2合并454和Illumina/Solexa拼接得到的contig

用罗氏454测序得到的序列用newbler拼接的效果最好,而用短序列拼接软件velvet拼接效果很差,所以不能将454的原始reads和Illumina产生的reads合到一起后用velvet进行拼接。在用newbler和velvet分别拼接454和Illumina的reads得到contigs之后,我们就需要将两者的contig再合并起来,得到更好的拼接结果。这里就介绍一个简单易用的软件minimus2。

minimus2是amos拼接软件包里面的一个组件,它的功能就是将两组contig进行合并,延伸contig的长度,减少contig的数量。Amos是A Modular, Open-Source whole genome assembler的缩写,致力于打造成一个拼接软件的基础软件系统。minimus2用的是基于nucmer overlap检测的算法,速度上比Smith-Waterman hash-overlap的算法要快,下面就介绍一下用法。

首先当然是下载amos软件包进行安装,下载地址为:http://sourceforge.net/projects/amos/files/

安装啥的就不说了,根据说明来就行。安装完成之后,minimus2软件位于amos安装文件夹下的bin里面。在运行minimus2之前首先要准备好文件,比如现在有s1.fa和s2.fa两组包含contig的文件,首先要知道里面包含的contig数目,针对fasta格式,用

grep -c "^>" s1.fa s2.fa  命令得到,比如分别为100和200个contig。

然后用cat命令合并到一个文件:

cat s1.fa s2.fa >s1_s2.fa

再用amos里面的另一个软件toAmos转换成Amos格式,这个软件也位于bin文件夹下面

./toAmos -s s1_s2.fa -o s1_s2.afg
这里的-s是指输入的为fasta格式。

然后就可以运行minimus2了

minimus2的运行参数为:

 minimus2 prefix  \
   -D REFCOUNT=n  \  # Number of sequences is the first set
   -D OVERLAP=n   \  # Minimum overlap (Default 40bp)
   -D CONSERR=f   \  # Maximum consensus error (0..1) (Def 0.06)
   -D MINID=n     \  # Minimum overlap %id for align. (Def 94)
   -D MAXTRIM=n      # Maximum sequence trimming length (Def 20bp)
最简单的命令为:
./minimus2 s1_s2 -D REFCOUNT=100

这里只要告诉文件名(不要后缀)和作为参考序列的第一组contig的数目就可以了。会生成一堆以s1_s2开头的文件,其中s1_s2.fasta就是合并之后得到的contig文件。

大功告成!

应用于第二代测序技术的生物信息学工具[zz]

刚才闲逛发现了这篇被多家博客转载的文章,来自于SEQanswer,总结地比较全面,不过已经比较老了,随便看看~

Integrated solutions
* CLCbio Genomics Workbench – de novo and reference assembly of Sanger, Roche FLX, Illumina, Helicos, and SOLiD data. Commercial next-gen-seq software that extends the CLCbio Main Workbench software. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Windows, Mac OS X and Linux.
* Galaxy – Galaxy = interactive and reproducible genomics. A job webportal.
* Genomatix – Integrated Solutions for Next Generation Sequencing data analysis.
* JMP Genomics – Next gen visualization and statistics tool from SAS. They are working with NCGR to refine this tool and produce others.
* NextGENe – de novo and reference assembly of Illumina, SOLiD and Roche FLX data. Uses a novel Condensation Assembly Tool approach where reads are joined via “anchors” into mini-contigs before assembly. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Win or MacOS.
* SeqMan Genome Analyser – Software for Next Generation sequence assembly of Illumina, Roche FLX and Sanger data integrating with Lasergene Sequence Analysis software for additional analysis and visualization capabilities. Can use a hybrid templated/de novo approach. Commercial. Win or Mac OS X.
* SHORE – SHORE, for Short Read, is a mapping and analysis pipeline for short DNA sequences produced on a Illumina Genome Analyzer. A suite created by the 1001 Genomes project. Source for POSIX.
* SlimSearch – Fledgling commercial product. Continue reading “应用于第二代测序技术的生物信息学工具[zz]” »

Posted in 生物信息学. Tags: , , . 7 Comments »83,880 views

新一代测序技术的发展现状[zz]

一、我们将如何应对海量的基因信息

新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。

1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵 列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端 的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此 同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。

Continue reading “新一代测序技术的发展现状[zz]” »

Posted in 生物信息学. Tags: , . 3 Comments »22,550 views