做為一個在科研服務圈摸爬滾打七年之久的老干部,見過形形色色的實驗問題,但要說最悲催的,還屬一個即將博士畢業的老師,在論文即將投稿之計,偶然發現NCBI數據庫將其當做編碼基因研究的分子,更新為了非編碼基因,這如同一個晴天霹靂砸懵了他,最終換了課題延遲畢業。
如果你覺得上述案例只是個例,那就錯了。
以NCBI為例,人基因下轄轉錄本數量動輒數十個,甚至上百個,但小鼠就沒這么多了,其他物種一個基因往往只收錄了一個轉錄本,是人類太高級了?一個基因需要表達很多模板行使功能?答案是否定的,自然面前人與動物是平等的,在基因數量方面,人的少于很多生物,甚至少于昆蟲,轉錄本數量也是一樣。
以當前生物圈研究極為深入的分子TP53為例,谷歌以“TP53”為詞條搜索,結果達一千五百萬條,按理說,其序列應該是確定的了,但在兩大核酸數據庫里,兩者的信息:
Ensembl數據庫收錄的TP53轉錄本數量:

NCBI數據庫收錄的TP53轉錄本數量:


可以看出,在Ensembl數據庫中,共收錄了27個轉錄本,三個非編碼,二十四個編碼;而NCBI收錄了十五個編碼的轉錄本,轉錄本數量就差了接近一倍;再看轉錄本長度,完全一致的不超過三個;蛋白差異只有一半的轉錄本是一致的。
想想看,研究透徹程度超過TP53分子的不會超過十個,但是人光編碼基因就有2w+,如果連人的基因研究都不夠透徹,那其他物種的就沒法看了。
當前數據庫信息的更新情況
以C9orf62為例,其在2020年八月之前轉錄本為NM_173520.3,是典型的編碼轉錄本,而現在是NR_171012.1,名稱也修正為非編碼的名稱LINC02907
小鼠Gm10033在2019年四月之前轉錄本是非編碼的NR_038044.1;之后變為編碼基因且含有兩種不同形式的蛋白轉錄本NM_001374600.1,NM_001374599.1
在短短的三年時間之內,人、小鼠、大鼠三大物種的基因及轉錄本條目數更新信息如下:
新增基因17,461個,新增的基因下的新增轉錄本30,202條
修改基因163,800個,修改的基因下新增了轉錄本135,739條,修改的基因下修改了轉錄本268,789條,修改的基因下刪除了轉錄本51,9007條
刪除基因98,014個,刪除的基因下刪除了轉錄本70,182條
這是個多么恐怖的更新數量,由此,我們對當前數據庫的很多基因序列是抱著懷疑的態度審視的。
為何基因會有如此多的轉錄本呢?
在蛋白數據庫UNIPROT的expression處對TP53標注如下:

由此可見,雖然一個基因有很多轉錄本,但這些轉錄本有明顯的組織傾向性或者在限定的發育時間表達,眾多的轉錄本不是一窩蜂表達出來的;此外,一些轉錄本在特定情況,如免疫,缺氧,精神緊張這些外部刺激的因素下限定表達。
基因or轉錄本為何出現不準確的情況
測序技術:測序技術在不斷的發展,基因組或者基因序列如果存在復雜情況(高/低GC、重復序列等),序列是測不準,測不通的;測出來的序列可能也存在誤差;
樣本問題:當前數據庫收錄的數據也是從樣本測序得來的,要代表全人類的基因,則需要足夠的樣本量;不同時期,若數據庫測序所用樣本不一樣,則基因數據肯定也存在差異;
數據庫收錄基因是否編碼屬性時,很多以軟件預測是否有足夠長的編碼區而編訂,并不是依據RNA測序+蛋白質譜相匹配標定轉錄本,因此會存在很多編碼屬性錯誤的轉錄本。
基因or轉錄本信息異??赡軐е碌暮蠊?/strong>
基因及轉錄本是否存在:如果因為測序樣本或技術的問題,將原本不存在的分子納入研究范疇,無疑是水中撈月,白忙活;
功能標注錯誤:最代表的就是非編碼基因標注為編碼屬性、非編碼屬性標注為編碼基因,這種錯誤是極為致命的;
啟動子錯誤:啟動子是基因表達的重要開關,也是研究的熱點,由于轉錄本在不斷更新,有相當多的轉錄本其5UTR序列在更新前后是存在差異的;而啟動子是根據5UTR的第一個堿基作為轉錄起始位點,通常取其上游2000bp做為研究對象,因此,轉錄本更新前后的啟動子序列也是不一樣的,可能對結果造成實際的影響;
3UTR錯誤:同,轉錄本序列的頻繁更新是一定會波及3UTR,而3UTR一直以來都是研究miRNA、蛋白結合的熱點區域,再加上現在RNA修飾如m6A的調控,如果序列不一樣,驗證結果也是不一樣的。
如何避開因數據庫信息錯誤導致的坑
重點來了,作為一位科研工作者,如何避免掉入錯誤數據的坑呢?
文獻支撐:對于有參考文獻的,重點核實文獻的轉錄本信息(當然,文獻一般不給轉錄本ID,那就根據引物、編碼區長度、蛋白大小等有用的信息確認轉錄本),尋找數據庫跟其一致的轉錄本;
信息核實:對于沒有參考文獻的基因,核實不同數據庫轉錄本數量、基因長度、編碼屬性等信息的異同;
初步驗證:針對目的基因進行WB,以確認細胞表達的蛋白大小,從而鎖定目標轉錄本;或更為簡便的方法是,針對目的基因的RNA同源區設計引物,進行擴增測序,確認細胞實際表達哪些轉錄本,再進行挑選研究,避免太多無效轉錄本的干擾(這也是關鍵問題,很多老師問,轉錄本太多,我怎么知道挑選哪個進行研究,所以比較簡便的是驗證下實際表達的轉錄本);
對于較新的分子,或者是未曾研究過的分子,無論是編碼基因還是非編碼基因,對于其是否具有編碼能力,可以采取構建質粒驗證下,成本不高,周期也很快;
對于啟動子、3UTR研究的老師,可以做RACE測序,確認全長的UTR序列;覺得RACE麻煩的話,可以針對目標UTR設計PCR引物,驗證是否存在對應的RNA序列(例如:在預測miRNA-3UTR結合時,targetscan經常引用舊數據,取結合位點,但是新的轉錄本序列不含此結合序列,那么簡單的方法就是驗證細胞的此基因是否含有此結合序列,就針對結合序列兩側設計PCR引物擴增cdna,能夠擴增出,就說明結合序列存在的,數據庫信息有誤,則可以放心大膽的驗證)。
最后
古語有云,盡信書,不如無書,經過小編上面簡單的論述,相信大家對基因數據有一定的了解,希望各位在科研的路上,不要太執迷于數據庫的信息,凡是抱著懷疑的態度看待問題,一切以實驗數據,而不是固定的信息為準,才能少走彎路。
吉凱基因可以提供一站式的基因查詢,比對,及各類驗證方案的設計、定制服務,有需要的老師,多多咨詢!?。?/strong>
