科研必看，你有擔心過數據庫的基因是錯的嗎？？？-環球風云-資訊-生物在線

科研必看，你有擔心過數據庫的基因是錯的嗎？？？-環球風云-資訊-生物在線

公開求購

科研必看，你有擔心過數據庫的基因是錯的嗎？？？

作者：上海吉凱基因醫學科技股份有限公司 2022-07-01T11:24 (訪問量:6151)

做為一個在科研服務圈摸爬滾打七年之久的老干部，見過形形色色的實驗問題，但要說最悲催的，還屬一個即將博士畢業的老師，在論文即將投稿之計，偶然發現NCBI數據庫將其當做編碼基因研究的分子，更新為了非編碼基因，這如同一個晴天霹靂砸懵了他，最終換了課題延遲畢業。

如果你覺得上述案例只是個例，那就錯了。

以NCBI為例，人基因下轄轉錄本數量動輒數十個，甚至上百個，但小鼠就沒這么多了，其他物種一個基因往往只收錄了一個轉錄本，是人類太高級了？一個基因需要表達很多模板行使功能？答案是否定的，自然面前人與動物是平等的，在基因數量方面，人的少于很多生物，甚至少于昆蟲，轉錄本數量也是一樣。

以當前生物圈研究極為深入的分子TP53為例，谷歌以“TP53”為詞條搜索，結果達一千五百萬條，按理說，其序列應該是確定的了，但在兩大核酸數據庫里，兩者的信息：

Ensembl數據庫收錄的TP53轉錄本數量：

NCBI數據庫收錄的TP53轉錄本數量：

可以看出，在Ensembl數據庫中，共收錄了27個轉錄本，三個非編碼，二十四個編碼；而NCBI收錄了十五個編碼的轉錄本，轉錄本數量就差了接近一倍；再看轉錄本長度，完全一致的不超過三個；蛋白差異只有一半的轉錄本是一致的。

想想看，研究透徹程度超過TP53分子的不會超過十個，但是人光編碼基因就有2w+，如果連人的基因研究都不夠透徹，那其他物種的就沒法看了。

當前數據庫信息的更新情況

以C9orf62為例，其在2020年八月之前轉錄本為NM_173520.3，是典型的編碼轉錄本，而現在是NR_171012.1，名稱也修正為非編碼的名稱LINC02907

小鼠Gm10033在2019年四月之前轉錄本是非編碼的NR_038044.1；之后變為編碼基因且含有兩種不同形式的蛋白轉錄本NM_001374600.1，NM_001374599.1

在短短的三年時間之內，人、小鼠、大鼠三大物種的基因及轉錄本條目數更新信息如下：

新增基因17,461個，新增的基因下的新增轉錄本30,202條
修改基因163,800個，修改的基因下新增了轉錄本135,739條，修改的基因下修改了轉錄本268,789條，修改的基因下刪除了轉錄本51,9007條
刪除基因98,014個，刪除的基因下刪除了轉錄本70,182條

這是個多么恐怖的更新數量，由此，我們對當前數據庫的很多基因序列是抱著懷疑的態度審視的。

為何基因會有如此多的轉錄本呢？

在蛋白數據庫UNIPROT的expression處對TP53標注如下：

由此可見，雖然一個基因有很多轉錄本，但這些轉錄本有明顯的組織傾向性或者在限定的發育時間表達，眾多的轉錄本不是一窩蜂表達出來的；此外，一些轉錄本在特定情況，如免疫，缺氧，精神緊張這些外部刺激的因素下限定表達。

基因or轉錄本為何出現不準確的情況

測序技術：測序技術在不斷的發展，基因組或者基因序列如果存在復雜情況（高/低GC、重復序列等），序列是測不準，測不通的；測出來的序列可能也存在誤差；

樣本問題：當前數據庫收錄的數據也是從樣本測序得來的，要代表全人類的基因，則需要足夠的樣本量；不同時期，若數據庫測序所用樣本不一樣，則基因數據肯定也存在差異；

數據庫收錄基因是否編碼屬性時，很多以軟件預測是否有足夠長的編碼區而編訂，并不是依據RNA測序+蛋白質譜相匹配標定轉錄本，因此會存在很多編碼屬性錯誤的轉錄本。

基因or轉錄本信息異?？赡軐е碌暮蠊?/strong>

基因及轉錄本是否存在：如果因為測序樣本或技術的問題，將原本不存在的分子納入研究范疇，無疑是水中撈月，白忙活；

功能標注錯誤：最代表的就是非編碼基因標注為編碼屬性、非編碼屬性標注為編碼基因，這種錯誤是極為致命的；

啟動子錯誤：啟動子是基因表達的重要開關，也是研究的熱點，由于轉錄本在不斷更新，有相當多的轉錄本其5UTR序列在更新前后是存在差異的；而啟動子是根據5UTR的第一個堿基作為轉錄起始位點，通常取其上游2000bp做為研究對象，因此，轉錄本更新前后的啟動子序列也是不一樣的，可能對結果造成實際的影響；

3UTR錯誤：同，轉錄本序列的頻繁更新是一定會波及3UTR，而3UTR一直以來都是研究miRNA、蛋白結合的熱點區域，再加上現在RNA修飾如m6A的調控，如果序列不一樣，驗證結果也是不一樣的。

如何避開因數據庫信息錯誤導致的坑

重點來了，作為一位科研工作者，如何避免掉入錯誤數據的坑呢？

文獻支撐：對于有參考文獻的，重點核實文獻的轉錄本信息（當然，文獻一般不給轉錄本ID，那就根據引物、編碼區長度、蛋白大小等有用的信息確認轉錄本），尋找數據庫跟其一致的轉錄本；

信息核實：對于沒有參考文獻的基因，核實不同數據庫轉錄本數量、基因長度、編碼屬性等信息的異同；

初步驗證：針對目的基因進行WB，以確認細胞表達的蛋白大小，從而鎖定目標轉錄本；或更為簡便的方法是，針對目的基因的RNA同源區設計引物，進行擴增測序，確認細胞實際表達哪些轉錄本，再進行挑選研究，避免太多無效轉錄本的干擾（這也是關鍵問題，很多老師問，轉錄本太多，我怎么知道挑選哪個進行研究，所以比較簡便的是驗證下實際表達的轉錄本）；

對于較新的分子，或者是未曾研究過的分子，無論是編碼基因還是非編碼基因，對于其是否具有編碼能力，可以采取構建質粒驗證下，成本不高，周期也很快；
對于啟動子、3UTR研究的老師，可以做RACE測序，確認全長的UTR序列；覺得RACE麻煩的話，可以針對目標UTR設計PCR引物，驗證是否存在對應的RNA序列（例如：在預測miRNA-3UTR結合時，targetscan經常引用舊數據，取結合位點，但是新的轉錄本序列不含此結合序列，那么簡單的方法就是驗證細胞的此基因是否含有此結合序列，就針對結合序列兩側設計PCR引物擴增cdna，能夠擴增出，就說明結合序列存在的，數據庫信息有誤，則可以放心大膽的驗證）。

最后
古語有云，盡信書，不如無書，經過小編上面簡單的論述，相信大家對基因數據有一定的了解，希望各位在科研的路上，不要太執迷于數據庫的信息，凡是抱著懷疑的態度看待問題，一切以實驗數據，而不是固定的信息為準，才能少走彎路。
吉凱基因可以提供一站式的基因查詢，比對，及各類驗證方案的設計、定制服務，有需要的老師，多多咨詢！?。?/strong>

上海吉凱基因醫學科技股份有限公司商家主頁

地址：上海市浦東新區張江高科技園區愛迪生路332號

聯系人：

電話： 4006210302

傳真：

Email：service@genechem.com.cn

相關咨詢

IF：31.37 少吃就不會胖了......嗎？ (2024-02-05T00:00 瀏覽數:74410)

多巴胺總讓人感覺愉悅？新研究發現多巴胺也引起回避行為 (2024-02-05T00:00 瀏覽數:62896)

高效感染造血干細胞利器——嵌合型腺病毒載體Ad5/F35 (2024-02-05T00:00 瀏覽數:66275)

分子燈籠，傳遞在黑夜中的微光 (2024-02-05T00:00 瀏覽數:61858)

用條形碼文庫病毒輕松給細胞打上條形碼 (2024-02-04T00:00 瀏覽數:65054)

Science新作：篩選關鍵神經元，逆轉完全性截癱 (2024-02-04T00:00 瀏覽數:72202)

Nat Commun：沈陽藥科大學與新加坡國立大學報道新型多價IL-15遞送策略 (暫無發布時間瀏覽數:61234)

貓咪是我的家人，我才不舍得給她做絕育手術呢！AAV來為您解憂 (暫無發布時間瀏覽數:70068)

一閃一閃亮晶晶選好熒光很要緊 (暫無發布時間瀏覽數:76457)

【硬核】外周對中樞的神經環路示蹤策略 (暫無發布時間瀏覽數:76122)

ADVERTISEMENT

上海市徐匯區宜山路425路號光啟城辦公樓3層

business#bioon.com(把#換成@)

每周一至周五早上9點至晚上6點

我們的服務

關于我們

幫助中心

營銷服務

法律聲明

免責聲明

友情鏈接

梅斯醫學

生物谷

生物醫藥大詞典

品牌會議

生物谷直播

期刊查詢

國自然基金查詢

Copyright © 2020 Bioon.com.cn by 生物谷著作權聲明法律聲明

互聯網藥品信息服務資格證書（滬）-非經營性-2015-0113 滬ICP備14018915號-4

滬公網安備 31010402000323號違法和不良信息舉報電話:021-54485309

上海工商違法和不良信息舉報中心信息舉報中心聯系我們