- NCBI RefSeq
NCBI RefSeq的命名規則是以兩個字母開頭,后面跟“_”,然后是純數字,常見的有“NM_”、“XM_”、“NR_”、“XR_”。有三點需要清楚:
1、“NM_”、“XM_”命名的記錄代表的是編碼基因,“NM_”對應“NP_”,“XM_”對應“XP_”;
2、“NR_”、“XR_”命名的記錄代表的是非編碼基因;
3、“XM_”,“XR_”通過計算機算法預測得到,而“NM_”和“NR_”都是有一定得實驗數據支撐,但并不是說“XM_”和“XR_”就不存在于細胞中。NCBI RefSeq一直在更新,這些命名的記錄代表的是一種狀態,經常會碰到某個“XM_”記錄被“NM_”代替,或者“NM_”記錄由于缺少證據而從NCBI RefSeq刪除。
更多命名含義如下圖:

- Ensemble
- Ensembl Stable ID是來源于Ensembl數據庫的編號系統。它的命名由三部分組成:[species prefix][feature type prefix][a unique eleven digit number]. (根據不同物種設置的前綴+數據所指類型【例如,蛋白質,基因】+一段特定的數字),
- 常見的物種前綴:ENS代表Homo sapiens (Human);ENSMUS代表Mus musculus (Mouse);ENSRNO代表Rattus norvegicus (Rat);
- 常見的數據類型:字母“G”代表gene,比如小鼠基因就命名為ENSMUSG###########;字母“T”代表transcript,比如ENSMUST###########;字母“P”代表protein,比如ENSMUSP###########。
- 有時有不同的版本, 則在 Ensembl ID 后面加上小數點和版本號(例如:ENSG00000223972.5)。如果要查詢ENSG00000223972.4,則需要去其他release中查找,目前已經更新到release 97。
- pri-miRNA, pre-miRNA 和 mature miRNA的概念:成熟的miRNAs是由較長的初級轉錄物經過一系列核酸酶的剪切加工而產生的,初級轉錄物稱為pri-miRNA。pri-miRNA長度從幾百到幾千個堿基不等,帶有5‘帽子和3’polyA尾巴,以及1到數個發夾徑環結構。Pri-miRNA經剪切產生約70個堿基的miRNA前體,即pre-miRNA。pre-miRNA經進一步剪切,形成長度約為22個堿基的單鏈成熟miRNA;
- 常見物種hsa,mmu和rno分別代表人,小鼠和大鼠;
- 在mirbase數據庫中,pre-miRNA用mir表示,mature miRNA用miR表示;
- 絕大多數pre-miRNA可以產生兩個mature miRNA,對應pre-miRNA莖環結構5‘和3‘序列的mature miRNA分別加后綴-5p和-3p以示區分,如rno-miR-325-5p和rno-miR-325-3p;
- 位于基因組不同部位但產生同樣的mature miRNA的pre-miRNA在序號后添加短線和阿拉伯數字以示區別,如hsa-mir-199a-1, hsa-mir-199a-2;
- 高度同源的miRNA(microRNA)在數字后加上英文小寫字母(a,b,c,)區分,如hsa-miR-34a,hsa-miR-34b,hsa-miR-34c等,通常他們的mature miRNA僅相差1-2個堿基,且他們的seed sequence相同,也就是說他們調控的靶基因相同;
- 在一些miRNA與靶基因3UTR結合位點預測數據庫有時會看到帶有“*”的mature miRNA,比如hsa-miR-199a*,以前“*”表示對應的mature miRNA表達量低或者是次要產物,但是現在miRbase數據庫已經取消這樣的命名,即如果一個pre-miRNA有兩個mature miRNA,用-5p和-3p以示區分。但是miRbase數據庫會告知以前名稱與現在名稱的對應關系。


三個常用數據庫的命名規則就到這里,了解數據命名規則特別是mirbase和Ensemble兩個數據庫可以很快速的知道基因信息對應的物種(比如人,小鼠,大鼠),數據類型(基因,轉錄本,蛋白),對于我們對信息準確與否的簡單判斷非常有幫助。

