使用NCBI做BLAST,我應該選擇哪個Database-技術前沿-資訊-生物在線

使用NCBI做BLAST,我應該選擇哪個Database

作者:上海吉凱基因醫學科技股份有限公司 2020-02-13T12:34 (訪問量:11383)

NCBI (National Center for Biotechnology Information) 由美國國立衛生研究院(NIH)于1988年創辦,創辦NCBI的初衷是為了給分子生物學家提供一個信息儲存和處理的系統。除了建有GenBank核酸序列數據庫(該數據庫的數據資源來自全球幾大DNA數據庫,其中包括日本DNA數據庫DDBJ、歐洲分子生物學實驗室數據庫EMBL以及其它幾個知名科研機構)之外,NCBI還可以提供眾多功能強大的數據檢索與分析工具。其中NCBI提供的BLAST工具相信訪問過NCBI的每個科學研究人員都用過該序列比對工具,但是在使用BLAST工具進行序列比對時,往往都要選擇一個Database進行比對,那如何選擇呢?
BLAST工具一:Nucleotide BLAST


Nucleotide BLAST核苷酸與核苷酸比對工具,進行比對時,選擇Standard database中具體哪一種database進行比對呢?每種database都包含哪些序列信息呢?


  1. Nucleotide collection(nr/nt)

Database描述:包含了除EST,STS,GSS,WGS,TSA,patentHTGS以及長度超過100Mb序列以外的包含在GenBank,EMBLDDBJ,PDBRefSeq中的所有序列。
使用環境:未知序列,在不清楚序列物種,序列來源,序列類型的情況下可優先考慮
序列類型:mixed DNA
更新時間:2019/10/03
序列數量:55908648

  1. Reference RNA sequences(refseq_rna)

Database描述:包含了refseq數據庫中的NM_NR_,XM_XR_序列記錄,區別于Refseq mRNA。
使用環境:知道序列對應的基因名稱,可以考慮選擇該Database進行序列比對
序列類型:cDNA
更新時間:2019/09/26
序列數量:33713514

  1. RefSeq Representative Genome Database

Database描述:該數據庫以最小冗余度建立,包含了從NCBI Refseq基因組數據庫中選擇的參考和代表基因組,其結果是該數據庫中的基因組是NCBI提供的質量好的基因組序列信息。對于真核生物,每個生物僅包含一個基因組。但是,對于其他生物,可能包括來自同一生物(例如大腸桿菌)的不同分離株的多個基因組。
使用環境:判斷序列大概有幾個外顯子組成,或者某段序列在基因組中的位置,方向等
序列類型:Genomic
更新時間:2015/09/30
序列數量:13454918

  1. RefSeq Genome Database(refseq_genomes)

Database描述:包含了所有分類物種的NCBI Refseq基因組序列。它僅包含頂層(top-level)序列,即僅包含代表基因組任何給定部分的最長序列。雖然包含組裝的染色體序列,但用于組裝此染色體序列的任何較短序列,例如重疊群(contigs)不包括在內。
使用環境:判斷序列大概有幾個外顯子組成,或者某段序列在基因組中的位置,方向等
序列類型:Genomic
更新時間:2016/12/14
序列數量:33120025

BLAST工具二:Primer-BLAST
對于Standard database的介紹就到這里,NCBI中還有一類特殊比對工具,這里主要介紹Primer-BLAST比對工具中的各Database的區別。

  1. nr(Nucleotide collection)

Database描述:包含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及長度超過100Mb序列以外的包含在GenBank,EMBLDDBJ,PDB,RefSeq中的所有序列。

2、Refseq mRNA
Database描述:只包含了NCBI Refseq 數據庫中編碼蛋白質的mRNA.

3、Refseq RNA
Database描述:包含了NCBI Refseq 數據庫中編碼蛋白質的mRNA和非編碼RNA。

Refseq mRNARefseq RNA區別:舉例NCBI human GLYR1(Gene ID: 84656)有5個NM號,6個NR號,7個XM號,4個XR號。在使用AGTCGTCTCAACCTGCGACATGCCGCTAAGATCACCAACATC這對qPCR引物進行比對,結果為:
如果選擇Refseq mRNA比對,只能比對到5個NM號和7個XM號;
如果選擇Refseq RNA比對,比對到5個NM號,6個NR號,7個XM號,4個XR號。

4、Refseq representative genomes
Database描述:該數據庫以最小冗余度建立,包含了從NCBI Refseq基因組數據庫中選擇的參考和代表基因組,其結果是該數據庫中的基因組是NCBI提供的質量好的基因組序列信息。

  1. Genomes for selected organisms (primary reference assembly only)

Database描述:包含了來自主要染色體裝配的完整或接近完整的基因組序列,可以選擇限定的物種有:apis mellifera,bos taurus ,danio rerio,dog,drosophila melanogaster,gallus gallus,human,mouse,pan troglodytes,pig,rat。

Refseq representative genomesGenomes for selected organisms (primary reference assembly only)的區別:前者完全包含后者,后者Genomes for selected organisms (primary reference assembly only)不包含替代基因組,因此比Refseq representative genomes數據庫具有更少的冗余。如果您不考慮替代基因組或者線粒體序列,建議在進行qPCR引物特異性比對時推薦使用Genomes for selected organisms (primary reference assembly only)。
總結:選擇正確的,合適的Database能夠讓我們非常容易的分析結果,另外,Database選擇不合適可能會導致錯誤的判讀哦,后面大家在使用BLAST工具時如果碰到此種情況,建議更換Database重新比對試試。

上海吉凱基因醫學科技股份有限公司 商家主頁

地 址: 上海市浦東新區張江高科技園區愛迪生路332號

聯系人:

電 話: 4006210302

傳 真:

Email:service@genechem.com.cn

相關咨詢
ADVERTISEMENT