SCI TRANSL MED(IF 17):多組學+人工智能揭秘年輕人新冠癥狀的驅動基因-環球風云-資訊-生物在線

SCI TRANSL MED(IF 17):多組學+人工智能揭秘年輕人新冠癥狀的驅動基因

作者:上海吉凱基因醫學科技股份有限公司 2022-03-18T11:34 (訪問量:7375)

胰腺導管腺癌(PDAC)是最致命的癌癥之一,其特征是進展快速、會發生轉移和難以診斷。然而,當前沒有有效的基于體液的檢測方法可用于PDAC檢測。


北京大學尹玉新教授團隊和國內其他團隊合作在Science Advances?(中科院JCR一區,影響因子:14.136)上發表了題為“Metabolic detection and systems analyses of pancreatic ductal adenocarcinoma through machine learning, lipidomics, and multi-omics”的文章,介紹了研究者利用機器學習(ML)分階段對大規模的脂質組學的結果進行分析、訓練、測試和驗證,最終找到了17個特征脂質代謝物集合有良好的分類效果,可用于診斷PDAC。本研究同時顯示了機器學習和代謝組學結合在疾病診斷中的潛在應用。
研究設計
研究結果

1.發現隊列的血清脂質組學

實驗組(PDAC):333PDAC患者血清
對照組(NC):262個健康個體血清

正離子模式下共檢測到1416個代謝物,分屬于19個脂質大類;負離子模式下共檢測到669個代謝物,分屬于16個脂質大類。

2.對脂質組學結果進行基于機器學習算法的分類
將發現隊列的共計595個樣本分為訓練隊列495個(訓練集:372;交叉驗證集:123)和測試集100個。支持向量機(SVM,一種機器學習分類算法)分別對正離子和負離子模式下檢測到的脂質代謝物進行分類分析。在完成5000次循環計算后,正離子模式下,SVM分類模型在測試集的平均準確度為82.26%,特異性為98.05%?,靈敏度為66.48%。負離子模式下,SVM分類模型,在測試集的平均準確度為85.88%?,特異性為71.93%?,靈敏度為99.83%。該結果表明,脂質組學和SVM結合是檢測PDAC的很有潛力的手段。
3.機器學習尋找能有效分類的特征脂質代謝物

貪婪算法通過逐一選擇排名靠前的特征(即脂質代謝物)進行評估。對于每個當前特征,一旦先前選定的特征與當前特征的組合達到更高的性能水平,當前特征將被標記并添加到選定特征集中。例如,對于第N次迭代,基于包含先前所選特征的特征集,貪婪算法首先將當前特征添加到該集中,然后進行500次四重交叉驗證以評估平均性能。如果獲得的平均性能優于以前的特征集,則意味著當前特征是現有選定特征集的補充,對于識別PDAC和健康對照至關重要,當前特征就會被保留在特征集中。

正離子模式下的27個特征脂質代謝物構成的分類模型在測試集的準確性為93.61%,特異性為89.92%,靈敏度為97.30%。而負離子模式下的19個特征脂質代謝物構成的分類模型在測試集的準確性為90.40%,特異性為83.15%,靈敏度為97.66%。此外,研究者發現和傳統的特征選擇相比,基于貪婪算法的特征選擇的精確度更高。
基于前面貪婪算法找到的特征代謝物,選擇了正離子模式下檢測到的12個和負離子模式下檢測到的8個脂質代謝物,共計17個代謝物,作為最終的特征脂質代謝物。基于這17個特征脂質代謝物組合的分類模型能以最少的數量達到優質的分類效果。
4.在大規模驗證隊列中對分類模型進行驗證

研究者建立基于質譜的靶向檢測方法(MRM靶向脂質組學),檢測1898個個體血清樣本中的17個特征脂質代謝物。

(1)在前述發現隊列中進行驗證:將前述發現隊列的595個樣本又分為訓練集(n=495)和測試集(n=100),作為內部驗證。多元二元邏輯回歸分析表明,性別和年齡狀態對分類模型的影響有限,表明該分類模型對于PDAC和健康對照的分類是特異性的,與年齡和性別無關。分類模型在訓練集上的準確率達到89.49%,特異性為89.15%,靈敏度為89.75%;在測試集上的準確率為86.00%,特異性為80.00%,靈敏度為92.00%?。訓練集的AUC達到0.9591,測試集的AUC達到0.9444。這些結果說明了機器學習算法輔助的基于脂質代謝物的PDAC檢測方法的準確性和有效性。

2)在獨立隊列中進一步驗證:研究者在含有1003個個體血清(600 PDAC403健康對照)的獨立隊列中對分類模型進行進一步驗證。分類模型的AUC0.9309,準確率為88.24%,靈敏度為93.00%,特異性為81.43%。在600PDAC樣本中,86.38%406/470)的早期PDAC(I-II)樣本和90%(113/130)的晚期PDACIII-IV期)樣本能被準確檢測。這些結果表明了機器學習算法輔助的基于脂質代謝物的PDAC檢測方法能有效的檢測各階段的PDAC

3)在新的臨床隊列中進行驗證:研究者在一個前瞻性、單盲的醫院隊列中檢驗了機器學習輔助的代謝PDAC檢測方法的性能。該隊列包含130名已接受醫學檢查的無癌個體和170名接受胰腺手術的患者,包括70名胰腺良性疾病患者(無癌個體)以及100名診斷為PDAC的患者。分類模型的準確率達到85.00%,特異性為81.00%,敏感性為93.00%,AUC0.9389。在該隊列中,該機器學習輔助的代謝PDAC檢測方法準確檢測了90.91% (50/55)的早期PDAC(I-II)95.56% (43/45)的晚期PDACIII-IV期)樣本。

4)與其他PDAC檢測方法進行比較:機器學習輔助的代謝PDAC檢測方法AUC0.9309,準確度為88.24%,敏感性為93.00%,特異性為81.43%。而經典的PDAC生物標志物碳水化合物抗原CA19-9AUC0.8790,準確率為83.00%,靈敏度為79.00%,特異性為85.00%。CT掃描的AUC0.7098,準確率為86.67%,靈敏度為78.00%,特異度為91.00%。此外,在對良性胰腺疾病的檢測分類中,機器學習輔助的代謝PDAC檢測方法也比CA19-9CT掃描有更好的效果。因此,機器學習輔助的代謝PDAC檢測方法有臨床應用價值,同時AI方法和CA-919CT掃描聯合或可使PDAC的臨床診斷受益。
5.多組學分析顯示PDAC存在廣泛的脂質代謝失調

1)基質輔助激光解析電離質譜成像(MALDI-MSI)5PDAC癌組織和癌旁組織樣本中的17個特征脂質代謝物進行檢測。結果表明,6個特征脂質代謝物的變化趨勢和前述脂質組學的結果相符。

210PDAC組織和5個配對的臨近胰腺組織的蛋白質組學結果,發現多個和脂質代謝相關的蛋白和通路失調。

3)對公開數據庫中24178個來自PDAC患者的胰腺組織細胞和5280個來自正常胰腺組織細胞的單細胞RNA測序結果進行分析共產生了10個細胞譜系。作者根據大規模的拷貝數變異(CNV)情況從上皮細胞中分辨出PDAC細胞。通過分析發現,甘油磷脂代謝是PDAC細胞中最顯著變化的脂質代謝相關途徑。

4)在TCGA-GTEx數據集以及獨立的mRNA?芯片結果中也有類似的結果。?

綜合以上結果表明,PDAC中存在廣泛的脂質代謝紊亂。

研究總結
研究者通過建立了一種結合機器學習和代謝組學的原型方法,該方法改進了利用機器學習進行靶向代謝組學的疾病檢測測試程序。研究結果表明,機器學習輔助的代謝PDAC檢測方法的比傳統方法有更良好的效果,證明了該方法在PDAC輔助診斷中的潛在應用前景。該方法的適當臨床應用可能有利于PDAC患者的準確診斷,并可能指導更加有效的治療。
上海吉凱基因醫學科技股份有限公司 商家主頁

地 址: 上海市浦東新區張江高科技園區愛迪生路332號

聯系人:

電 話: 4006210302

傳 真:

Email:service@genechem.com.cn

相關咨詢
ADVERTISEMENT