代謝組學是對生物體某一特定組分所包含的所有代謝物進行定性及定量分析,并研究該代謝組在外界干預或疾病生理條件下動態變化規律的一門學科。代謝組學是一門交叉性極強的學科,我們經常講,代謝組學是用物理學原理的設備,檢測化學原理的化合物,然后通過計算統計學,分析生物學機理,最終闡述醫學等各種現象,真的是相當的復雜。
百趣生物亮哥從事代謝組學檢測分析工作十幾年,從不懂到懂一點,也是有非常漫長的過程。然而最近看一些文章,聽一些報告,和客戶朋友聊一些天,發現大家對代謝組學研究依然有很多誤區。故而總結這十大誤區供大家討論及參考:
誤區十:OPLS-DA模型能將兩組分開即表示兩組之間有差異?
很多人做代謝組學數據分析,當拿到OPLS-DA模型結果時,一看兩組之間分的很開(見下圖),瞬間就興奮了,這結果杠杠的。

圖1. 兩組之間OPLS-DA模型得分圖
然而對結果的錯誤理解,往往是投稿被拒噩夢的源頭。
當我們拿到一個分的很開的OPLS-DA模型時,切莫匆忙得出“兩組之間有明顯差異”的結論。因為這個模型極有可能是一個過擬合的模型。
那么如何才能判斷一個OPLS-DA模型的好壞以及如何判斷OPLS-DA模型是否過擬合呢?
首先我們要了解一下OPLS-DA模型的一個基本原理。
OPLS-DA(正交矯正偏最小二乘法判別分析)模型是一個有監督的機器學習方法,最早是2002年由Trygg和Wold在PLS算法基礎上建立了OPLS得來。
OPLS-DA作為一個有監督的模型,意味著模型使用了兩組分類信息作為分類的Y變量,也就是說模型事先知道哪些樣品是哪組的,然后開始建模,其第一主成分(也叫預測主成分)呈現的是兩組之間的差異信息。其第二主成分呈現的是同組內的差異信息,故而我們看到的圖大概率都是能分得很好的。
而模型的兩個得分值,R2Y代表了模型的可解釋性,也就是說模型中有百分之多少的信息能解釋我們事先知道的分類變量Y,R2Y約接近1,說明能解釋兩組分類的信息越多,也就是我們說的兩組之間的差異越大。同時模型自己做了一個自我交叉驗證(Cross Validation),也就是我們平常說的七折交叉驗證、十折交叉驗證、留一法交叉驗證等。通過交叉驗證模型計算出一個Q2Y,以此來判斷模型的可預測性。Q2Y越接近1,說明模型的可預測性越強,也就是我們說的模型越可靠。
如圖1模型,其R2Y=0.909,Q2Y=0.672,說明模型的可解釋很強,可預測性尚可。根據經驗,Q2Y最好不要低于0.4。
為了進一步驗證模型的可靠性,除了采用交叉驗證這種內部驗證的形式之外,我們還可以采用置換檢驗(permutation test)這種外部驗證的方式。

圖2. Permutation test(非圖1的檢驗圖)
置換檢驗的圖到底該怎么看呢?
百趣生物亮哥來帶大家看一下官方教程的解釋:

總結一下就是兩點:
1. 原始的R2Y和Q2Y(最右邊的兩個點)總是大于左邊那些置換后對應的值(左邊那些散點)。
2. 看截距,根據經驗判斷,優秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超過0.05(通常為負值)
在很多的實際的項目中,尤其是臨床樣品的檢測項目,能滿足兩條斜線的斜率為正,且Q2Y的截距不超過0.05就很好了。所以可以看出圖2的置換檢驗結果also good,但不是很理想,有一定的過擬合,要警惕結果的假陽性。
總結一下,OPLS-DA模型不能只看得分圖能不能分開,而是要看R2Y和Q2Y的得分值以及外部檢驗的結果是否通過??梢哉f,寫文章時如果只秀能分開的得分圖,不展示得分值和檢驗結果,那是赤裸裸的耍流氓。
文章轉載自知乎@亮哥聊代謝組學
