《融合多組學數據預測染色質開放性的機器學習方法》以染色質開放性數據的信息解讀為主線,通過融合多種組學數據的方式,研究預測染色質開放性的機器學習方法、探索單細胞染色質開放性數據分析的理論與方法;系統(tǒng)性地研究了細胞群與單細胞染色質開放性數據分析中的關鍵問題,對生物數據解讀中的概率密度估計等共性基礎問題進行了創(chuàng)新性探索,研究成果不僅能對大規(guī)模染色質開放性數據進行高效分析,還能加強對細胞調控機制的深入理解,從而促進對遺傳學數據的有效解讀。
《融合多組學數據預測染色質開放性的機器學習方法》可供生物信息學、遺傳學及染色質開放性數據分析等領域的高校師生和科研院所研究人員及相關技術人員閱讀參考。
獲評清華大學優(yōu)秀博士畢業(yè)論文,系統(tǒng)研究了細胞群與單細胞染色質開放性數據分析中的關鍵問題,對生物數據解讀中的概率密度估計等共性基礎問題進行了創(chuàng)新性探索。
生物大數據的快速發(fā)展和積累,特別是在高通量測序技術的推動下,為我們深入理解基因調控機理和探索復雜遺傳疾病的發(fā)展提供了前所未有的機會。然而,目前對這些生物大數據的全面解讀仍面臨著推理復雜、生物知識不夠準確、多源異質數據協(xié)同分析不夠精細等挑戰(zhàn)。近年來,深度學習等人工智能技術在多個領域取得了突破性成果,為解決這些關鍵問題提供了強大的工具。
劉橋博士在其學位論文中,以染色質開放性這一表觀遺傳學信號的預測方法為例,系統(tǒng)地研究了細胞群水平及單細胞水平的染色質開放性分析系統(tǒng)與方法,開發(fā)了多種機器學習和深度學習方法來進行數據的解讀和分析。主要研究內容及創(chuàng)新成果可以概括為以下三點:
(1)提出了對染色質開放區(qū)域進行預測的深度學習方法。通過整合基因組序列、基因表達數據,以及物種進化保守性信息,獲得了很高的預測準確性,解釋了染色質開放區(qū)域特有的基因組序列特征。進一步基于預測模型設計了個性化的遺傳變異致病性識別方法,可促進精準醫(yī)學中重大疾病的個性化防診治。
(2)提出了對高維稀疏數據進行概率密度估計的神經網絡理論與方法。通過構建兩組循環(huán)相連的生成對抗網絡,在對高維稀疏數據進行降維的同時進行概率密度估計。該理論突破了神經網絡研究中理論缺乏的瓶頸,是深度學習理論研究的一項重要進展。
(3)提出了基于單細胞染色質開放性數據辨識細胞類型的神經網絡模型。在上述概率密度估計的神經網絡理論指導下,設計了用于非監(jiān)督聚類的循環(huán)生成對抗網絡模型,實現(xiàn)了對細胞類型的辨識,進行了后續(xù)細胞類型層次的功能建模分析。進一步拓展該模型,實現(xiàn)了整合單細胞基因表達與染色質開放性數據的細胞類型精確辨識。
綜上所述,劉橋博士在其學位論文中展現(xiàn)了其在生物醫(yī)學大數據分析與建模中的能力和創(chuàng)新成果。他所提出的多種深度學習和人工智能方法,不僅顯著提升了生物醫(yī)學數據建模的能力,也為精準醫(yī)學的個性化防診治提供了重要的理論支持,為未來的生物信息學研究和臨床應用奠定了堅實的基礎。
江瑞教授
北京,2024年7月
劉橋,作者博士畢業(yè)于清華大學自動化系,現(xiàn)為美國斯坦福大學博士后研究員。主要研究方向為機器學習與計算生物學。曾獲清華大學優(yōu)秀博士畢業(yè)論文,清華大學優(yōu)秀畢業(yè)生,北京市優(yōu)秀畢業(yè)生等榮譽,以第一作者的身份在Nature子刊,美國科學院院刊PNAS,Bioinformatics等頂級學術刊物發(fā)表學術論文多篇。
第 1 章 引言 1
1.1 研究背景與意義 1
1.1.1 高通量測序技術 3
1.1.2 染色質開放性 5
1.1.3 基因調控機制 10
1.2 研究現(xiàn)狀與不足 12
1.2.1 細胞群染色質開放性預測方法 12
1.2.2 單細胞染色質開放性分析方法 15
1.3 本書研究內容與貢獻 18
1.4 本書內容安排 21
1.5 小結 22
第 2 章 基于序列信息的染色質開放性預測方法 23
2.1 引言 23
2.2 整合序列進化保守性的隨機森林預測方法 24
2.2.1 研究背景與動機 24
2.2.2 基于隨機森林的 kmerForest 模型 26
2.2.3 kmerForest 模型準確預測染色質開放性 27
2.2.4 利用 kmerForest 模型促進遺傳變異數據的解釋 31
2.2.5 分析與小結 33
2.3 結合 k 聚體特征的混合卷積神經網絡預測方法 34
2.3.1 研究背景與動機 34
2.3.2 基于混合神經網絡的 Deopen 模型 36
2.3.3 Deopen 準確預測染色質開放性二值狀態(tài) 39
2.3.4 Deopen 準確恢復連續(xù)染色質開放性信號 44
2.3.5 神經網絡卷積核的生物解釋 48
2.3.6 分析與小結 50
2.4 小結 54
第 3 章 融合組學數據的跨細胞系染色質開放性預測方法 55
3.1 引言 55
3.2 研究背景與動機 56
3.3 基于密集連接卷積網絡的 DeepCAGE 模型 58
3.3.1 模型設計架構 58
3.3.2 模型評價方法 59
3.3.3 實驗數據準備和預處理 61
3.4 DeepCAGE 模型預測性能 63
3.4.1 DeepCAGE 準確預測跨細胞系染色質開放性二值狀態(tài) 63
3.4.2 DeepCAGE 準確恢復跨細胞系染色質開放性連續(xù)信號 64
3.4.3 針對 DeepCAGE 模型的消融性分析 67
3.5 DeepCAGE 模型的生物學應用與解釋 69
3.5.1 基于梯度的轉錄因子的優(yōu)先排序分析 69
3.5.2 神經網絡卷積核的可視化與信息熵分析 71
3.6 DeepCAGE 模型在解讀全基因組測序數據上的應用 72
3.6.1 建立全基因組測序變異位點影響的評估方法 72
3.6.2 全基因組數據測序變異位點的排序分析 73
3.6.3 從全基因組突變位點到復雜表型的建模與解釋 74
3.7 小結 75
第 4 章 基于深度生成式模型的單細胞染色質開放性分析方法 77
4.1 引言 77
4.2 研究背景與動機 79
4.3 基于循環(huán)對抗生成式網絡的概率密度估計模型 Roundtrip 80
4.3.1 概率密度估計的建模與求解方法 81
4.3.2 概率密度估計模型的遷移 86
4.4 解析單細胞染色質開放性的 scDEC 模型 87
4.4.1 scDEC 模型設計架構 87
4.4.2 模型的對抗式訓練 89
4.4.3 模型評價方法 92
4.4.4 實驗數據準備與預處理 94
4.5 scDEC 模型在細胞類型發(fā)現(xiàn)上的性能表現(xiàn) 97
4.5.1 scDEC 在多個數據集上細胞聚類性能上優(yōu)于已有方法 97
4.5.2 scDEC 在大規(guī)模 scATAC-seq 數據下的性能分析 109
4.5.3 scDEC 模型在單細胞多組學數據上的性能分析 109
4.6 scDEC 促進下游生物應用與發(fā)現(xiàn) 113
4.6.1 利用 scDEC 模型促進細胞特異性 motif 分析 113
4.6.2 利用 scDEC 模型促進細胞軌跡推斷分析 118
4.6.3 利用 scDEC 模型消除單細胞數據中的實驗技術噪聲 119
4.7 小結 122
第 5 章 總結與展望 126
5.1 總結 126
5.2 未來展望 128
參考文獻 130