答疑解惑專題(三)——代謝組學數據處理-自主發布-資訊-生物在線

答疑解惑專題(三)——代謝組學數據處理

作者:麥特繪譜生物科技(上海)有限公司 2018-10-29T14:42 (訪問量:26230)

統計分析(Statistical analysis)是代謝組學數據處理過程中的核心環節,通過不同的分析方法和手段可對不同組別樣本中檢測到的代謝物進行代謝輪廓分析,進而采用相關統計軟件(XploreMET\SIMCA等)或R語言進行單維(Univariate statistical analysis)或多維(Multivariate statistical analysis)統計分析以尋找差異代謝物并對其可視化,以便研究人員更直觀的捕捉到關鍵的差異代謝物信息,并對其展開深度研究。那么,代謝組學數據是否需要預處理?統計模型該如何選擇?構建的模型是否可靠?如何尋找差異代謝物?本文將系統介紹代謝組學數據處理流程。


數據歸一化

多維統計模型建立之前,首先需要對數據作歸一化(Normalization)處理(有些學者稱為標準化Standardization),一是讓數據無量綱化,使不同性質的變量具有可比性;二是將不同數量級的變量數據經過不同的轉換(transform)至合適范圍,避免大值變量掩蓋小值變量的波動。在代謝組學數據處理中,常用的歸一化方法有Ctr(Center scaling), UV (unit variance scaling)和Par(Pareto scaling)。Ctr也叫中心化是原數據減去每列變量的均值,UV是數據中心化后除以列變量標準差(Standard deviation),Par是數據中心化后除以列變量標準差的算術平方根。Ctr將原數據轉化成離原點更近的新數據,可調節代謝物的高低濃度差異;UV的優勢是所有變量擁有同等的重要性,但缺點是檢測誤差可能會被放大;Par相比于UV更接近于原始測量數據,但缺點是對變化倍數大的變量更敏感[1]。UV和Par是常用的歸一化方式,基于不同的歸一化方式后續的數據分析將選擇不同的差異代謝物篩選方法,如UV下常使用V-plot(圖1-A),Par下則常用S-plot(圖1-B)。無論選擇何種歸一化方式,都需要對建立的模型作嚴格驗證以確保篩選出可靠的差異代謝物。因為VIP值通常用于差異變量篩選標準之一,V-plot可比較客觀的選擇出變量。對于Biomarker Discovery的診斷工具,我們推薦使用V-plot和相關性Corr.Coeffs. 的p值同時考慮的標準,如下圖2所示。


圖1. V-plot和S-plot示意圖



圖2. 基于VIP和Corr.Coeffs的p值的V-plot用于差異代謝物的篩選。來源:麥特繪譜XploreMET軟件。


模型構建

代謝組學數據分析中,最常用的多維模型包括主成分分析(principal component analysis, PCA)、偏最小二乘法判別分析(Partial least squares discriminant analysis, PLS-DA)和正交偏最小二乘法判別分析(orthogonal PLS-DA, OPLS-DA)。PCA屬于無監督的分類模型,可將多維的數據不斷降維形成幾個主要成分(PC)來盡可能描述原始數據的特征。其中PC1描述了原始數據矩陣中最顯著的特征,PC2描述了除PC1之外最顯著的數據特征,依此類推。PCA通常被用于尋找離群點(outlier)及觀察不同組別之間的自然聚類趨勢。那么如何判斷數據集中的outlier?可通過Hotelling's T2或PC1的score plot(PC1的數據解釋率最高)來判斷(圖3),通常紅線之外的樣本為嚴重離群點,需要進一步處理。PCA的離群點也可以分組來看,以減少組間的干擾,如下圖4所示。但對于離群點,不建議簡單粗暴地刪除,因為離群點通常是有趣且值得深究的。研究人員需要仔細地排查離群究竟是因為采樣、前處理、檢測等環節引入的誤差還是客觀的生物學差異引起的。



圖3. Hotelling's T2柱狀圖和PC1的得分圖


圖4. 分組PCA 得分圖用于離群點尋找。來源:麥特繪譜XploreMET軟件。



利用PCA模型還可以觀察樣本間的自然聚類趨勢。不同組別樣本在PCA Score plot上即可分離是多維統計結果可靠性的最有力證據。然而,不同組別樣本不一定都存在明顯的差異,尤其對于臨床樣本的影響因素較多,如性別、年齡、BMI、地域、飲食、生活環境等。這些因素會給數據集帶來很多和分組信息無關的噪音信號。此時,可以利用有監督的分類模型。有監督的意思就是事先告訴模型樣本的真實分組信息再進行模型構建。PLS-DA能按照預先定義的分類(Y變量)最大化組間的差異,獲得比PCA更好的分離效果(圖5)。OPLS-DA綜合了PLS-DA和正交信號過濾(orthogonal signal correction, OSC)技術,能夠把與預先設定的和分類無關的信息最大程度從原始矩陣分離,從而將最相關的因素集中到第一個主成份(Predictive component)上,進而尋找該主成分的正交矯正軸方向,從而使得組間樣本分離效果更佳,使組內差異弱化,組間差異最大化凸顯,且更適用于兩組樣本間的分離。PLS-DA可以用于兩組及以上組別的分類比較,而OPLS-DA通常用于兩組的對比,找差異物質。


圖5. PCA和PLS-DA得分圖,PLS-DA可獲得更清晰的分離



模型評價



有監督的分類模型缺點是可能會出現過擬合(over-fitting)現象,即模型可以很好地將樣本進行區分,但用來預測新的樣本集時卻表現很差。因此對于有監督的分類模型,我們需要驗證模型的可靠性,下面列出幾種常見的模型評價方法:



1. K折交互驗證(K-fold cross validation)

最可靠的方式是將數據分為訓練集(Training set)、驗證集(Validation set)和測試集(Test set),訓練集用于訓練模型,驗證集優化模型,測試集測試模型的預測能力。但受限于樣本數量,通常采用K折交互驗證。其中七折交互驗證較為常用,即將數據集分為7份,每次挑選出1份作為測試樣本,剩余的6份用來訓練建模,整個過程將會被重復直到所有樣品都被預測過。預測的數據將會和原始數據作對比得到預測殘差平方和(Predicted residual sum of squares, PRESS)。為方便起見,將PRESS轉變為Q2(1-PRESS/SS)。Q2越大表示模型的預測能力越好。對于生物學樣本,Q2≥0.4是比較理想的[2],Q2≥0.2往往也可以接受,只是模型比較弱。軟件在自動建模(Autofit)時,會根據Q2決定模型所用的主成分或Orthogonal component個數(OPLS-DA模型)。當Q2停止增長時,模型將不再增加主成分。



2. 置換檢驗(Permutation test)

僅用Q2仍不足以證明模型的可靠性,置換檢驗也是常用的模型評判方式,常和Q2結合使用。其原理是將每個樣本的分組標記隨機打亂,再來建模和預測。一個可靠模型的Q2應當顯著大于將數據隨機打亂建模后得到的Q2?;谥脫Q檢驗的結果,可以畫出Permutation plot(圖6)。該圖展示了置換檢驗得到的分組變量和原始分組變量的相關性以及對應的Q2值,虛線為回歸線。一個可靠的有監督模型要求回歸線在Y軸上的截距小于0。



圖6. Permutation plot用于模型驗證



3. 基于交互驗證的方差分析(CV-ANOVA)

CV-ANOVA是基于交互驗證預測殘差的方差分析,利用方差分析測試預測的Y變量(Yhat)和預設Y變量(Yobs)的殘差和Yobs圍繞均值變化的差異。它的好處是可以將交互驗證的結果以更加熟悉的方式展現出來,輸出表征統計學意義的P值。但CV-ANOVA對于小樣本集的檢驗效能較低[3]。



差異代謝物篩選



篩選差異代謝產物通常基于OPLS-DA模型,因為它更易于進行模型解釋,所有跟分組相關的信息都集中于第一維。篩選的標準通常是基于以下兩個指標:

Corr.Coeffs./p(corr) (Correlation Coefficient),是樣本得分值t和變量X間的相關系數-Corr(t, X),代表了變量的可靠度。該值沒有固定閾值,通常設定對應的P值 < 0.05。

VIP (Variable importance in the projection),為變量對模型的重要性,描述了每一個變量對模型的總體貢獻,通常設定閾值為VIP >1。

除此之外,基于單維檢驗的P值和變化倍數(Fold change)所作的火山圖(Volcano plot)也是常用的篩選方法。



代謝通路分析



通過上述方法篩選到差異代謝物后,還需要挖掘和這些代謝物相關的代謝通路。此時,可以采用MetaboAnalyst網站(http://www.metaboanalyst.ca/)進行代謝通路分析(Metabolic pathway analysis),代謝通路分析分為富集分析(Enrichment analysis)和通路分析(pathway analysis)。通路分析中添加了通路拓撲分析(topology analysis),會輸出通路在整體網絡中的重要性(impact)。下圖展示了典型的代謝通路分析圖。



圖7. 代謝通路分析展示圖(來源:MetaboAnalyst網站)



代謝組學的數據處理遠不止于此,本文淺嘗輒止,若有更多感興趣的問題,請在下方留言,歡迎一起交流討論!



參考文獻

Worley, B. and R. Powers, Multivariate Analysis in Metabolomics. Curr Metabolomics, 2013. 1(1):92-107.

Westerhuis, J.A., et al., Assessment of PLSDA cross validation. Metabolomics, 2008. 4(1):81-89.

Eriksson, L., J. Trygg, and S. Wold, CV-ANOVA for signi?cance testing of PLS and OPLS? models. J. Chemometrics, 2008. 22:594–600.

麥特繪譜生物科技(上海)有限公司 商家主頁

地 址: 上海市浦東新區秀浦路2555號康橋商務綠洲E6棟5層

聯系人: 林景超

電 話: 400-867-2686

傳 真: 021-20900216

Email:marketing@metaboprofile.com

相關咨詢

客戶案例 | Cell重磅!代謝物α-KG化身血管 “智能開關”——破解玫瑰痤瘡治療困局 (暫無發布時間 瀏覽數:6415)

客戶案例 | Gut:幽門螺桿菌并非僅有!房靜遠院士團隊揭示胃癌又一“促癌元兇”咽峽炎鏈球菌 (暫無發布時間 瀏覽數:6756)

講座預告 | 4月23日19點,房靜遠院士團隊精講Gut-咽峽炎鏈球菌產生的甲硫氨酸促進胃癌進展 (暫無發布時間 瀏覽數:5522)

繪譜學堂 | 3月19日14點,腸道菌群與代謝在抑郁癥治療中的作用及診斷潛能研究 (暫無發布時間 瀏覽數:10696)

Cell Metabolism | 賈偉等科學家揭秘“清醛益生菌”精準攔截高糖產乙醛通道,筑牢代謝防火墻 (暫無發布時間 瀏覽數:13531)

客戶案例 | GUT:結腸炎患者福音!腸道高豐度Parasutterella菌+免疫陷阱=腸癌高風險,靶向干預有了新方向! (暫無發布時間 瀏覽數:13687)

客戶案例 | 蘇州大學賈志浩/張勇等Nature Communications:抑制PRMT3模擬限制性飲食改善代謝靈活性 (暫無發布時間 瀏覽數:17561)

繪譜導讀 | 頂刊聚焦腸道微生物-宿主代謝:從膽汁酸互作到腫瘤免疫的健康密碼 (暫無發布時間 瀏覽數:16411)

Nature Communications | 代謝組學和蛋白質組學揭示阻斷精氨酸琥珀酸合成酶1可緩解潰瘍性結腸炎 (暫無發布時間 瀏覽數:16632)

客戶案例 | Cell Metabolism:抗性淀粉治脂肪肝 “因人而異”?腸道菌群才是療效 “開關”! (暫無發布時間 瀏覽數:17139)

ADVERTISEMENT