??全基因組拷貝數變異(Copy Number Variation,CNV)在腫瘤的研究中占據十分重要的地位。目前,CNV已被多項研究證明參與了癌癥的發生和發展,其數量和復雜程度更是許多癌癥的預后指標。2013年9月Nature雜志發表了一篇對3299份來自于12種實體瘤樣本的研究,結論表明腫瘤可以依據驅動因素,分為M class (mutation driven,基因突變驅動) 和C class (copy number driven,拷貝數變異驅動)。其中,卵巢癌、乳腺癌、肺(鱗)癌及頭頸癌等癌癥中,CNV類型的驅動突變多于基因突變。這充分表明了CNV在腫瘤研究中的重要性。
? ? ? ??上海伯豪生物技術有限公司(Shanghai Biotechnology Corporation)作為上海生物芯片有限公司/生物芯片上海國家工程研究中心旗下的專業技術服務子公司,在FFPE樣品檢測服務領域有多年服務經驗,為客戶整合推出OncoScanTM FFPE檢測服務分析全面解決方案。
一. 產品介紹
? ? ? ??福爾馬林固定、石蠟包埋(formalin fixation and paraffin embedding,FFPE)是腫瘤醫學領域常見的樣本形式。FFPE樣本通常珍貴且保存時間長,存在樣本量稀少和高度降解的問題。因此,從FFPE?組織中獲得CNV變異信息,是一個巨大的挑戰。Affymetrix 公司的OncoScan? FFPE檢測產品針對降解狀態的FFPE樣本,開發了分子倒置探針(MIP)技術,并針對891個癌癥相關基因加密設計了探針,以提高檢測分辨率。在一個試驗中輕松完成拷貝數變異和雜合性缺失(LOH)檢測,并能檢測常見的獲得性突變。

?
Affymetrix OncoScan? FFPE芯片特點
- 使用分子倒置探針(MIP)技術,針對FFPE樣本優化設計(探針結合處只需40bp的堿基);
- 經7000多個樣本驗證,試驗成功率>90%;
- 所需起始DNA量少,陳舊FFPE樣本也有效(10年或者更久);
- 針對約900種癌基因,能達到50-100kb拷貝數的分辨率;
- 癌基因外的全基因掃描,可達到300kb的分辨率;
- 可檢測全基因組LOH缺失,包括拷貝數中性的LOH(copy neutral LOH);
- 檢測動態范圍可以高達10拷貝以上;
- 對關鍵癌基因如ERBB2 (Her2)、EGFR、MDM2、MYCFGFR1等,證實與FISH驗證的擴增一致。

?
通過OncoScan? FFPE觀察樣本的CNV和LOH
? ? ? ??拷貝數探針強度(log2ratio)與B等位基因頻率(B-Allele Frequency, BAF)的結果是判斷樣本是否發生了CNV和LOH的直接依據。圖2展示了拷貝數增加(左圈)和減少(右圈)的示例。

? ? ? ??在圖2案例中,拷貝數增加使log2ratio大于0,且等位基因由2個等位基因增加為3個,因此BAF出現了4條帶型,帶型的頻率分布根據腫瘤樣本和正常樣本的比例決定(表2)??截悢禍p少也會出現4個帶型,原理相似。

OncoScan? FFPE可反映樣本的亞克隆結構
? ? ? ??腫瘤樣本具有高度異質性,通過OncoScan? FFPE芯片的分析,可以觀察樣本中的亞克隆結構。圖3展示了樣本中存在2個亞克隆時的情況。2個克隆由于在組織中占比不同,因此發生缺失時log2ratio將出現2個小于0的不同數值,且BAF帶型也將呈現兩種狀態(見表2)。

二. 樣本要求
樣本準備及建議:
? ? ? ??FFPE切片(10片左右,切片厚度10um左右)
樣品量要求
- 樣品純度:RNA 應該去除干凈;
- 樣品濃度:濃度不低于12ng/μl;
- 樣品溶劑:溶解在Reduced TE(10mM Tris, pH 8,0,0.1mM EDTA)中;
- 樣品運輸: DNA低溫運輸(-20℃);在運輸過程中請用parafilm將管口密封好,以防污染。
三. 基礎分析內容
3.1 CNV和LOH結果統計
? ? ? ??Affymetrix Genechip Scaner產生的芯片原始數據cel文件,用CHAS(Chromosome Analysis Suite)軟件進行分析將Cel文件轉換成CYCHP文件,導出每個樣本CNV及LOH結果總表、樣本的CNV及LOH染色體分布圖和每個樣本log2Ratio、BAF總圖。


?
3.2 CNV和LOH結果可視化
? ? ? ??借助CHAS軟件分染色體展示拷貝數變異和LOH。其中CNV用藍色(擴增)與紅色(缺失)表示,LOH用紫色表示。

? ? ? ??CHAS軟件也可以同時展示多個樣本的CNV或LOH結果,用于直觀比較多個樣本的相同和差異。

? ? ? ??CHAS軟件可將單個樣本的拷貝數探針(log2ratio)與SNP探針(BAF)的結果用圖形展示出來。圖8為展示結果,X軸為染色體,Y軸為log2ratio或BAF。

四. 高級分析內容
4.1多樣本CNV頻數分析
? ? ? ??在進行多個樣本分析時,可統計多個樣本的CNV頻數,直觀發現樣本之間的相似性和差異性。在下圖中,柱高代表該CNV區段在樣本中所占比例,向上為拷貝數增加,向下為拷貝數減少,不同顏色代表不同拷貝數狀態。

4.2顯著高頻CNV統計
? ? ? ??GISTIC是使用頻率較高的CNV顯著性統計軟件,可找出多個樣本(一般大于20個)中顯著高頻出現的CNV,用于推測驅動CNV變異。另外,GISTIC可根據CNV占染色體比例,將CNV區分為broad events和focal events。在對每個樣本進行分析時,GISTIC計算了各基因區域的G-score,反映了CNV的變化幅度和其在樣本之間的出現頻率。下圖展示了各樣本的G-score染色體排布,可觀察樣本之間CNV發生情況。

? ? ? ??下圖為GISTIC的主要結果,展示了擴增和缺失的顯著區域。紅色為拷貝數增加,藍色為拷貝數減少,超出閾值的區段為顯著性CNV區段。

4.3 CNV相關基因富集分析
? ? ? ??在癌癥發展中,具有驅動作用的CNV變異由于具有選擇優勢,可能會受到富集作用。因此,可對CNV中包含的基因進行GO、KEGG和疾病類型的富集分析,觀察是否有某些基因功能、通路或疾病類型被顯著富集。在下圖中,縱坐標表示Go term,橫坐標是富集因子(Rich Factor = Gene number/Total Gene Number of the term)。每個圓圈的大小與在這個Go Term上的基因成正比,顏色與根據q-value的log值從紅到綠漸變。顏色越紅,則q-value值越低,富集越顯著。

4.4 CNV聚類熱圖展示
? ? ? ??在腫瘤研究樣本數較多的情況下,可對所研究的個體進行聚類,方便對具有相似CNV發生特征的個體進行分組;也可對發生CNV的染色體區域進行聚類,尋找相似的癌癥相關基因。
? ? ? ??下圖為根據GISTIC結果,對樣本的G-score進行聚類。左上圖例:不同顏色代表不同拷貝數,折線圖表示具有該拷貝數的windows(以2Mb為單位統計)數量;右上圖例:個體表型分類;左下圖例:不同顏色代表不同染色體。

? ? ? ??也可同時對樣本和染色體區域進行聚類,如下。

? ? ? ??另外,也可根據絕對拷貝數進行聚類分析,如下圖所示。

4.5組間差異基因CNV統計
? ? ? ??在腫瘤基因組研究中,常需統計原發和轉移組,或者用藥敏感或非敏感組等之間的CNV差異。常見的統計方法如下:
(1) 尋找樣本之間共同的CNV,并以CNV區段為單位進行fisher檢驗;
(2) 以基因為單位,使用fisher檢驗統計兩組樣本中基因拷貝數變化的差異;
(3) 以GISTIC結果中基因的G-score為單位,在兩組樣本中使用t檢驗統計差異基因。

4.6基于機器學習模型篩選生物標志物
? ? ? ??SVM(Support Vector Machine,支持向量機)是一個有監督的學習模型,通常用來進行模式識別、分類以及回歸分析,能夠較好的解決小樣本的分類問題。在癌癥研究中,常需要對用藥前后,轉移和非轉移等分組進行特征性分子標志物的篩選。分類效果的好壞可以用ROC曲線(Receiver Operator Characteristic curve)對所篩選基因的準確性進行可視化展示。ROC曲線越靠近左上角,分子標志物篩選準確性就越高,當AUC值(Area Under the Curve)大于0.9時說明模型較為可靠。

