了解這些數據庫命名規則,我才認為你了解數據庫-產品資訊-資訊-生物在線

了解這些數據庫命名規則,我才認為你了解數據庫

作者:上海吉凱基因醫學科技股份有限公司 2019-12-24T13:22 (訪問量:9529)

相信,基因信息檢索涉及到我們每個科研實驗人員每天的日常實驗中,而用的多的幾個數據庫莫過于NCBI RefSeq,Ensemble,mirBase三個數據庫。那這三個數據庫中基因信息都是根據什么規則來命名的呢?
  • NCBI RefSeq
NCBI RefSeq(美國國立生物技術信息中心參考序列庫)是目前世界上最具有權威性的序列數據庫,該數據庫中所有的數據是一個非冗余的、提供參考標準的數據,包括染色體、基因組(細胞器、病毒、質粒)、蛋白、RNA等。
NCBI RefSeq的命名規則是以兩個字母開頭,后面跟“_”,然后是純數字,常見的有“NM_”、“XM_”、“NR_”、“XR_”。有三點需要清楚:
1、“NM_”、“XM_”命名的記錄代表的是編碼基因,“NM_”對應“NP_”,“XM_”對應“XP_”;
2、“NR_”、“XR_”命名的記錄代表的是非編碼基因;
3、“XM_”,“XR_”通過計算機算法預測得到,而“NM_”和“NR_”都是有一定得實驗數據支撐,但并不是說“XM_”和“XR_”就不存在于細胞中。NCBI RefSeq一直在更新,這些命名的記錄代表的是一種狀態,經常會碰到某個“XM_”記錄被“NM_”代替,或者“NM_”記錄由于缺少證據而從NCBI RefSeq刪除。
更多命名含義如下圖:


  • Ensemble
Ensembl基因組數據庫項目是歐洲生物信息研究所和Wellcome Trust Sanger研究所之間的一個聯合科學項目。Ensembl旨在為遺傳學家,分子生物學家和其他研究我們自己的物種和其他脊椎動物和模式生物的基因組的研究人員提供集中資源。Ensembl是用于檢索基因組注釋信息的幾種眾所周知的基因組瀏覽器之一。我們在Ensembl中進行檢索主要使用的是Ensembl Stable ID,也就是常說的Ensembl ID。Ensembl ID也是有自己的命名規則的,有幾點需要清楚:
  1. Ensembl Stable ID是來源于Ensembl數據庫的編號系統。它的命名由三部分組成:[species prefix][feature type prefix][a unique eleven digit number]. (根據不同物種設置的前綴+數據所指類型【例如,蛋白質,基因】+一段特定的數字),
  2. 常見的物種前綴:ENS代表Homo sapiens (Human);ENSMUS代表Mus musculus (Mouse);ENSRNO代表Rattus norvegicus (Rat);
  3. 常見的數據類型:字母“G”代表gene,比如小鼠基因就命名為ENSMUSG###########;字母“T”代表transcript,比如ENSMUST###########;字母“P”代表protein,比如ENSMUSP###########。
  4. 有時有不同的版本, 則在 Ensembl ID 后面加上小數點和版本號(例如:ENSG00000223972.5)。如果要查詢ENSG00000223972.4,則需要去其他release中查找,目前已經更新到release 97。
miRbase 是由曼徹斯特大學的研究人員開發的一個在線的miRNA數據庫,該數據庫中收錄了來自200多個物種,接近4萬個miRNA的信息,是最全面的miRNA數據庫。microRNA(miRNA)是一類長度約為19-25nt的內源性非編碼RNA,廣泛參與基因轉錄后調控活動,其中多數miRNA具有高度序列保守性、表達時序性和組織特異性。有幾點需要清楚:
  1. pri-miRNA, pre-miRNA 和 mature miRNA的概念:成熟的miRNAs是由較長的初級轉錄物經過一系列核酸酶的剪切加工而產生的,初級轉錄物稱為pri-miRNA。pri-miRNA長度從幾百到幾千個堿基不等,帶有5‘帽子和3’polyA尾巴,以及1到數個發夾徑環結構。Pri-miRNA經剪切產生約70個堿基的miRNA前體,即pre-miRNA。pre-miRNA經進一步剪切,形成長度約為22個堿基的單鏈成熟miRNA;
  2. 常見物種hsa,mmu和rno分別代表人,小鼠和大鼠;
  3. 在mirbase數據庫中,pre-miRNA用mir表示,mature miRNA用miR表示;
  4. 絕大多數pre-miRNA可以產生兩個mature miRNA,對應pre-miRNA莖環結構5‘和3‘序列的mature miRNA分別加后綴-5p和-3p以示區分,如rno-miR-325-5p和rno-miR-325-3p;
  5. 位于基因組不同部位但產生同樣的mature miRNA的pre-miRNA在序號后添加短線和阿拉伯數字以示區別,如hsa-mir-199a-1, hsa-mir-199a-2;
  6. 高度同源的miRNA(microRNA)在數字后加上英文小寫字母(a,b,c,)區分,如hsa-miR-34a,hsa-miR-34b,hsa-miR-34c等,通常他們的mature miRNA僅相差1-2個堿基,且他們的seed sequence相同,也就是說他們調控的靶基因相同;
  7. 在一些miRNA與靶基因3UTR結合位點預測數據庫有時會看到帶有“*”的mature miRNA,比如hsa-miR-199a*,以前“*”表示對應的mature miRNA表達量低或者是次要產物,但是現在miRbase數據庫已經取消這樣的命名,即如果一個pre-miRNA有兩個mature miRNA,用-5p和-3p以示區分。但是miRbase數據庫會告知以前名稱與現在名稱的對應關系。

三個常用數據庫的命名規則就到這里,了解數據命名規則特別是mirbase和Ensemble兩個數據庫可以很快速的知道基因信息對應的物種(比如人,小鼠,大鼠),數據類型(基因,轉錄本,蛋白),對于我們對信息準確與否的簡單判斷非常有幫助。
上海吉凱基因醫學科技股份有限公司 商家主頁

地 址: 上海市浦東新區張江高科技園區愛迪生路332號

聯系人:

電 話: 4006210302

傳 真:

Email:service@genechem.com.cn

相關咨詢
ADVERTISEMENT