構(gòu)建合適的機器學(xué)習(xí)模型,對樣本是否為疾病樣本進行預(yù)測,或預(yù)測腫瘤病人的預(yù)后信息。
轉(zhuǎn)錄組、拷貝數(shù)變異數(shù)據(jù)、甲基化數(shù)據(jù)、轉(zhuǎn)錄調(diào)控數(shù)據(jù)等多組學(xué)數(shù)據(jù)。
將多個組學(xué)數(shù)據(jù)的公共數(shù)據(jù)集隨機劃分為訓(xùn)練集和測試集,在訓(xùn)練集上綜合考慮預(yù)后相關(guān)的多組學(xué)基因特征,訓(xùn)練基于隨機森林、邏輯回歸等算法的疾病診斷模型或預(yù)后風(fēng)險評估模型。用 ROC曲線和AUC值做模型的評估。對于預(yù)后風(fēng)險評估模型,我們根據(jù)訓(xùn)練好的風(fēng)險模型計算測試集中的每個樣本的Risk score,做K-M生存分析,檢查是否有統(tǒng)計上的差異性。
分析內(nèi)容
(1)訓(xùn)練集與測試集的隨機劃分結(jié)果
(2)隨機森林、邏輯回歸模型的具體參數(shù)
(3)測試集每一個樣本的風(fēng)險分值以及高風(fēng)險/低風(fēng)險分組
(4)模型重要性排序圖;模型評估結(jié)果:KM 生存曲線以及 ROC 曲線圖
科研服務(wù)咨詢
公眾號二維碼