nucleotide blast(blastn)中空位罚分gap costs的计算方法

为什么要把这个看上去很简单的问题写下来呢,因为里面有些地方很容易引起误解,写下来给大家一个参考。 首先,blastn中默认的linear的罚分是如何计算的?所谓linear线性罚分,就是gap中每个碱基都扣相同的分数,那么到底是扣几分呢?我没有找到官方的说法,但是通过我的试验,我得出的结论是每个gap中的每个碱基扣2.5分,得到一个总分后还要四舍五入一下,于是1个碱基空位扣3分,两个扣5分,三个扣8分,以此类推。 其次,选择其他gap costs选项时,比如“existence 5 extension 2”,存在一个空位扣5分,每个延伸扣2分。一开始我想当然地认为是空位扣分后每个延伸是从第二个空位碱基开始算的,那么单个碱基的空位应该是扣5分,但是实际情况却是空位延伸罚分是从第一个碱基开始算的,单个碱基的空位就要扣5+2分,两个碱基的空位是5+2*2,n个碱基的空位就要扣5+n*2了。 最后,没有了~

Protein Blast中Blastp/PSI-BLAST/PHI-BLAST区别与选择

说完blastn,接着说blastp~blsatp中也有三个不同的算法可以选择,如下: blastp (protein-protein BLAST)就是简单地进行蛋白与蛋白的比对,寻找蛋白质相似序列; PSI-BLAST (Position-Specific Iterated BLAST)叫做位点特异性迭代比对,它在蛋白质数据库中循环搜索查询蛋白质,所有前一次被psi-blast发现的统计显著蛋白质序列将整合成新记分矩阵,通过多次迭代比对,直到不再发现统计显著的新蛋白质; PHI-BLAST (Pattern Hit Initiated BLAST)可以在搜索的时候限定蛋白质的模式(pattern),只给出包含此模式的比对结果。

nucleotide blast中MegaBlast/Discontiguous MegaBlast/BlastN的区别与选择

今天在准备学院培训班的试讲,复习了这部分内容,于是写下来吧~ 从blastn页面上的简单帮助可以看到Highly similar sequences (megablast)多用于比较相似性比较高(相似性在95%以上)的序列,速度快;More dissimilar sequences (discontiguous megablast)用于相似性稍低于megablast的比对,但是灵敏度和精确度更高,多用于不同物种间的同源比对;而Somewhat similar sequences (blastn)用于比对相似性较差的序列,可以比对最短7个碱基的长度,所以比对精确度最高,比对结果最多,速度最慢。 所以,在选择的时候根据你提交的序列和搜索的目的进行选择,如果是想看这段序列在数据库当中是否有收录,可以用megablast,如果想用其他物种的基因注释信息来注释一个未注释物种的序列,可以选择discontiguous megablast,如果想得到更多更全面的结果,可以选择blastn。 更详细的解释可以查看:http://www.ncbi.nlm.nih.gov/blast/producttable.shtml#tab31