代謝組學的飛速發展,尤其是分析技術的進步、樣本數量的增加、樣本類型的多樣化以及多檢測平臺的聯合應用,使代謝組數據在數量和復雜性上急劇增加。代謝組學數據庫的開發對于歸納總結這些大數據、提高數據的使用率、進行深層次的交叉分析以及揭示隱藏在大數據背后的生物學機理都有重要的作用。
當前,代謝組學研究中涉及到的數據庫大致可劃分為兩個層次:存儲原始檢測數據的原始數據庫和存儲代謝物及代謝通路相關信息的代謝物庫。產生最早且發展相對成熟的是代謝物庫。早期的代謝物庫主要是存儲各種代謝物的基本信息,包括代謝產物的簡介、化學式、分子量、化學分類、化學性質、所在的代謝通路和質譜圖等。用戶可以將待鑒定物質的信息與庫中代謝物的信息進行一一比對,對目標物質進行定性及代謝通路搜索。其中Human Metabolome Database (HMDB)、Kyoto Encyclopedia of Genes and Genomes (KEGG)、Metabolite Link (Metlin)、The Golm Metabolome Database (GMD)和The Small Molecule Pathway Database (SMPDB)等等代謝物庫是該類數據庫的代表,發展相對成熟,應用廣泛。
2010年以來,隨著精準醫學和生物信息學的發展,在一些國際組織的倡導和大力推動下,原始數據庫開始出現。這類數據庫在建立、完善、標準化和推廣上都存在很多困難,依賴于全世界科研觀念和技術的發展。基因組數據庫建設的成功先例對該類數據庫的發展有一定的促進和借鑒作用。原始數據庫的出現和標準化建設將為更多的科研工作者提供了交流合作的機會,也是進一步提高數據利用率和挖掘深度的有效途徑,將大大促進代謝組學技術的進步,也會為各種組學的整合分析以及組學與其他學科的交叉研究奠定數據基礎。因此,雖然這類數據庫建設和完善難度較大,但卻是組學發展的必然趨勢。2010年以來,歐洲和美國的多個機構逐步建立了一系列原始數據庫并組建了專業團隊致力于維護和推廣應用。當前,有代表性的四大庫是美國NIH的Metabolomics Workbench、歐洲生物信息研究所的Metabolights、Metabolic Phenotype Database(MetaPhen,屬于MetabolomeExpress的一部分)和Metabolomic Repository Bordeaux (MeRy-B)。其中,前兩種應用較為廣泛,且接受多種儀器平臺和物種的數據。Metabolomics Workbench還允許對公開可用數據進行探索性的統計分析。Metabolights更側重于數據管理,且數據遞交的標準更嚴格。MetaPhen和MeRy-B的規模更小,且專注于植物代謝組學。MeRy-B以1H-NMR數據為主,MetaPhen則側重于GCMS數據。
目前,原始數據庫建設的公認標準是MSI(Metabolomics Standards Initiative, European Bioinformatics Institute, http://msi-workgroups.sourceforge.net/)和COSMOS (Coordination of Standards in Metabolomics, European Union, http://cosmosfp7.eu)。上述數據庫基本都符合這兩個標準。有些組織也公布了自己的標準,但與這兩個標準高度一致。按照MSI和COSMOS的要求,數據庫要求被授權的資源提供者在提供規定格式(如ISA-Tab)的原始數據的同時,還必須提供以下信息:提交者的基本信息、實驗設計,研究對象及相應處理,樣本搜集和存儲條件、樣本前處理,儀器平臺和分析條件、樣本的臨床信息和代謝物信息等。其中代謝物的信息包括基本描述,外部數據庫識別代碼,化學式,簡化分子線性輸入規范(Simplified molecular-input line-entry system, SMILES),應用化學協會識別代碼(the International Chemical Identifier of IUPAC),峰強度或濃度以及用于識別代謝物的相關信息,例如m/z,保留指數,碎片信息等。如果資源提供者采用提交的資源已公開發表過文章,還需提供文章全文。只有滿足以上要求的資源才會被加入到數據庫中。
下表中列出了常用的典型數據庫及其主要性能的比較。

表1. 典型數據庫及其主要性能比較
當前,各大代謝物庫的應用已相對廣泛成熟,對代謝組學發展的貢獻有目共睹。原始數據庫雖然發展勢頭強勁但仍處于建設初期,尚未有大量應用的報道。但可喜的是,已有學者將多個原始數據庫或某一庫中的多項資源進行整合使用,進一步提高了數據資源的利用率。2015年,荷蘭的萊登大學、歐洲生物信息學研究所和德國的萊布尼茨植物化學研究所等多家機構共同建立了一個跨庫原始數據檢索平臺——MetabolomeXchange(http://metabolomexchange.org/site/),為數據庫資源的整合和擴展應用提供了又一快捷途徑。
以上是代謝組學所涉及到的兩類數據庫的總結。關于每個數據庫的特點我們下期繼續分析。

