NCBI (National Center for Biotechnology Information) 由美國國立衛(wèi)生研究院(NIH)于1988年創(chuàng)辦,創(chuàng)辦NCBI的初衷是為了給分子生物學(xué)家提供一個(gè)信息儲(chǔ)存和處理的系統(tǒng)。除了建有GenBank核酸序列數(shù)據(jù)庫(該數(shù)據(jù)庫的數(shù)據(jù)資源來自全球幾大DNA數(shù)據(jù)庫,其中包括日本DNA數(shù)據(jù)庫DDBJ、歐洲分子生物學(xué)實(shí)驗(yàn)室數(shù)據(jù)庫EMBL以及其它幾個(gè)知名科研機(jī)構(gòu))之外,NCBI還可以提供眾多功能強(qiáng)大的數(shù)據(jù)檢索與分析工具。其中NCBI提供的BLAST工具相信訪問過NCBI的每個(gè)科學(xué)研究人員都用過該序列比對(duì)工具,但是在使用BLAST工具進(jìn)行序列比對(duì)時(shí),往往都要選擇一個(gè)Database進(jìn)行比對(duì),那如何選擇呢?
BLAST工具一:Nucleotide BLAST
Nucleotide BLAST是核苷酸與核苷酸比對(duì)工具,進(jìn)行比對(duì)時(shí),選擇Standard database中具體哪一種database進(jìn)行比對(duì)呢?每種database都包含哪些序列信息呢?
- Nucleotide collection(nr/nt)
Database描述:包含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及長(zhǎng)度超過100Mb序列以外的包含在GenBank,EMBL,DDBJ,PDB,RefSeq中的所有序列。
使用環(huán)境:未知序列,在不清楚序列物種,序列來源,序列類型的情況下可優(yōu)先考慮
序列類型:mixed DNA
更新時(shí)間:2019/10/03
序列數(shù)量:55908648
- Reference RNA sequences(refseq_rna)
Database描述:包含了refseq數(shù)據(jù)庫中的NM_,NR_,XM_,XR_序列記錄,區(qū)別于Refseq mRNA。
使用環(huán)境:知道序列對(duì)應(yīng)的基因名稱,可以考慮選擇該Database進(jìn)行序列比對(duì)
序列類型:cDNA
更新時(shí)間:2019/09/26
序列數(shù)量:33713514
- RefSeq Representative Genome Database
Database描述:該數(shù)據(jù)庫以最小冗余度建立,包含了從NCBI Refseq基因組數(shù)據(jù)庫中選擇的參考和代表性基因組,其結(jié)果是該數(shù)據(jù)庫中的基因組是NCBI提供的質(zhì)量好的基因組序列信息。對(duì)于真核生物,每個(gè)生物僅包含一個(gè)基因組。但是,對(duì)于其他生物,可能包括來自同一生物(例如大腸桿菌)的不同分離株的多個(gè)基因組。
使用環(huán)境:判斷序列大概有幾個(gè)外顯子組成,或者某段序列在基因組中的位置,方向等
序列類型:Genomic
更新時(shí)間:2015/09/30
序列數(shù)量:13454918
- RefSeq Genome Database(refseq_genomes)
Database描述:包含了所有分類物種的NCBI Refseq基因組序列。它僅包含頂層(top-level)序列,即僅包含代表基因組任何給定部分的最長(zhǎng)序列。雖然包含組裝的染色體序列,但用于組裝此染色體序列的任何較短序列,例如重疊群(contigs)不包括在內(nèi)。
使用環(huán)境:判斷序列大概有幾個(gè)外顯子組成,或者某段序列在基因組中的位置,方向等
序列類型:Genomic
更新時(shí)間:2016/12/14
序列數(shù)量:33120025
BLAST工具二:Primer-BLAST
對(duì)于Standard database的介紹就到這里,NCBI中還有一類特殊比對(duì)工具,這里主要介紹Primer-BLAST比對(duì)工具中的各Database的區(qū)別。
- nr(Nucleotide collection)
Database描述:包含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及長(zhǎng)度超過100Mb序列以外的包含在GenBank,EMBL,DDBJ,PDB,RefSeq中的所有序列。
2、Refseq mRNA
Database描述:只包含了NCBI Refseq 數(shù)據(jù)庫中編碼蛋白質(zhì)的mRNA。.
3、Refseq RNA
Database描述:包含了NCBI Refseq 數(shù)據(jù)庫中編碼蛋白質(zhì)的mRNA和非編碼RNA。
Refseq mRNA和Refseq RNA區(qū)別:舉例NCBI human GLYR1(Gene ID: 84656)有5個(gè)NM號(hào),6個(gè)NR號(hào),7個(gè)XM號(hào),4個(gè)XR號(hào)。在使用AGTCGTCTCAACCTGCGACAT和GCCGCTAAGATCACCAACATC這對(duì)qPCR引物進(jìn)行比對(duì),結(jié)果為:
如果選擇Refseq mRNA比對(duì),只能比對(duì)到5個(gè)NM號(hào)和7個(gè)XM號(hào);
如果選擇Refseq RNA比對(duì),比對(duì)到5個(gè)NM號(hào),6個(gè)NR號(hào),7個(gè)XM號(hào),4個(gè)XR號(hào)。
4、Refseq representative genomes
Database描述:該數(shù)據(jù)庫以最小冗余度建立,包含了從NCBI Refseq基因組數(shù)據(jù)庫中選擇的參考和代表性基因組,其結(jié)果是該數(shù)據(jù)庫中的基因組是NCBI提供的質(zhì)量好的基因組序列信息。
- Genomes for selected organisms (primary reference assembly only)
Database描述:包含了來自主要染色體裝配的完整或接近完整的基因組序列,可以選擇限定的物種有:apis mellifera,bos taurus ,danio rerio,dog,drosophila melanogaster,gallus gallus,human,mouse,pan troglodytes,pig,rat。
Refseq representative genomes與Genomes for selected organisms (primary reference assembly only)的區(qū)別:前者完全包含后者,后者Genomes for selected organisms (primary reference assembly only)不包含替代基因組,因此比Refseq representative genomes數(shù)據(jù)庫具有更少的冗余。如果您不考慮替代基因組或者線粒體序列,建議在進(jìn)行qPCR引物特異性比對(duì)時(shí)推薦使用Genomes for selected organisms (primary reference assembly only)。
總結(jié):選擇正確的,合適的Database能夠讓我們非常容易的分析結(jié)果,另外,Database選擇不合適可能會(huì)導(dǎo)致錯(cuò)誤的判讀哦,后面大家在使用BLAST工具時(shí)如果碰到此種情況,建議更換Database重新比對(duì)試試。
