為了響應國家健康發(fā)展人工智能技術的戰(zhàn)略,針對國家、社會、個人對于提高機器學習安全與數(shù)據(jù)隱私保護的迫切需求,本書聚焦機器學習攻防對抗問題,根據(jù)機器學習的生命周期系統(tǒng)梳理了包括模型訓練、模型推理、算法實踐3個階段的安全與隱私相關問題,并深入探討了常見的攻防對抗場景及對應場景面臨的安全威脅與隱私風險,如數(shù)據(jù)隱私泄露、模型后門攻擊等。此外,本書還展望了提升模型安全性的可行方案,為讀者提供了理論與實踐結(jié)合的全面視角。
本書可供網(wǎng)絡空間安全、計算機科學與技術、人工智能等相關專業(yè)的高年級本科生和研究生閱讀,尤其適合具備機器學習、深度神經(jīng)網(wǎng)絡、網(wǎng)絡安全等基礎知識的讀者。
1、本書聚焦機器學習攻防對抗問題,根據(jù)機器學習的生命周期系統(tǒng)梳理了包括模型訓練、模型推理、算法實踐3個階段的安全與隱私相關問題;
2、本書深入探討了常見的攻防對抗場景及對應場景面臨的安全威脅與隱私風險,如數(shù)據(jù)隱私泄露、模型后門攻擊等;
3、本書還展望了提升模型安全性的可行方案,提供了豐富的實戰(zhàn)案例和理論分析,為讀者提供了理論與實踐結(jié)合的全面視角。
沈超,西安交通大學二級教授,教育部長江學者特聘教授,國家自然科學基金委創(chuàng)新群體B負責人,教育部創(chuàng)新團隊負責人,科學探索獎、達摩院青橙獎、基金委優(yōu)青獲得者,信息物理融合系統(tǒng)教育部工程研究中心主任,國家重點研發(fā)計劃首席科學家,國家基礎加強計劃技術首席科學家,國家重點研發(fā)計劃“先進計算與新興軟件”重點專項指南專家組成員,麻省理工MIT TR35 China、霍英東青年教師一等獎、IEEE SMC Early Career Award、陜西省青年五四獎章獲得者。主要從事智能系統(tǒng)安全與控制、人工智能可信與安全、智能軟硬件測試的研究,在IEEE S&P、ACM CCS、USENIX Security、ICSE、ASE、ICML、NIPS等計算機和自動化領域的學術刊物上發(fā)表論文100余篇,獲學術會議最佳論文獎12項,2021—2025年連續(xù)5年入選全球前2%頂尖科學家榜單。
第 1章 對抗性機器學習基礎知識 001
1.1 監(jiān)督學習 002
1.1.1 分類 002
1.1.2 回歸 004
1.1.3 對抗環(huán)境中的監(jiān)督學習 006
1.2 無監(jiān)督學習 006
1.2.1 聚類 007
1.2.2 降維 009
1.2.3 對抗環(huán)境中的無監(jiān)督學習 011
1.3 半監(jiān)督學習 011
1.3.1 半監(jiān)督學習的3個基本假設 011
1.3.2 半監(jiān)督學習在分類和回歸兩種場景下的應用 012
1.4 強化學習 012
1.4.1 強化學習概述 013
1.4.2 有模型學習 016
1.4.3 基于學習的預測 018
1.4.4 對抗環(huán)境中的強化學習 023
1.5 深度學習 023
1.5.1 多層感知器 024
1.5.2 卷積神經(jīng)網(wǎng)絡 025
1.5.3 循環(huán)神經(jīng)網(wǎng)絡 026
1.5.4 對抗環(huán)境中的深度學習 027
1.6 本章小結(jié) 029
參考文獻 029
第 2章 對抗性機器學習與隱私攻防 032
2.1 對抗與隱私攻擊分類 032
2.1.1 對抗性攻擊 032
2.1.2 對抗性機器學習與隱私攻擊場景 033
2.1.3 訓練階段的攻擊 037
2.1.4 推理階段的攻擊 038
2.2 對抗與隱私防御分類 040
2.2.1 對抗性防御 040
2.2.2 對抗性機器學習防御場景 041
2.2.3 訓練階段攻擊防御 043
2.2.4 推理階段攻擊防御 045
2.3 本章小結(jié) 047
參考文獻 048
第3章 訓練階段的攻擊 054
3.1 數(shù)據(jù)投毒攻擊 054
3.1.1 數(shù)據(jù)投毒攻擊概述 055
3.1.2 破壞可用性目標的數(shù)據(jù)投毒攻擊 056
3.1.3 破壞完整性目標的數(shù)據(jù)投毒攻擊 062
3.2 模型投毒攻擊 066
3.2.1 模型投毒攻擊概述 066
3.2.2 模型更新投毒攻擊 067
3.2.3 聯(lián)邦數(shù)據(jù)投毒攻擊 072
3.3 模型后門攻擊 076
3.3.1 模型后門攻擊概述 077
3.3.2 模型后門觸發(fā)器 079
3.3.3 模型后門訓練數(shù)據(jù)集 082
3.3.4 模型后門植入階段 084
3.4 本章小結(jié) 086
參考文獻 086
第4章 訓練階段的防御 089
4.1 數(shù)據(jù)投毒防御 089
4.1.1 數(shù)據(jù)投毒防御概述 090
4.1.2 數(shù)據(jù)投毒檢測 091
4.1.3 數(shù)據(jù)投毒修復 093
4.2 模型投毒防御 095
4.2.1 魯棒性聯(lián)邦學習聚合算法 095
4.2.2 魯棒性聯(lián)邦學習協(xié)議 097
4.3 模型后門防御 099
4.3.1 模型后門防御概述 099
4.3.2 基于模型輸入的防御方法 100
4.3.3 基于模型參數(shù)的防御方法 103
4.4 本章小結(jié) 105
參考文獻 106
第5章 推理階段的攻擊 109
5.1 數(shù)字域?qū)构? 109
5.1.1 數(shù)字域白盒對抗攻擊 110
5.1.2 數(shù)字域黑盒對抗攻擊 116
5.2 物理域?qū)构? 123
5.2.1 物理域?qū)构舾攀? 124
5.2.2 物理域?qū)构舴椒? 124
5.3 隱私攻擊 132
5.3.1 模型逆向攻擊 133
5.3.2 成員推理攻擊 137
5.3.3 模型竊取攻擊 141
5.4 本章小結(jié) 144
參考文獻 145
第6章 推理階段的防御 148
6.1 數(shù)字域?qū)构舴烙? 148
6.1.1 基于修改輸入的對抗攻擊防御 149
6.1.2 基于修改網(wǎng)絡結(jié)構的對抗攻擊防御 150
6.1.3 基于訓練過程的對抗攻擊防御 151
6.1.4 基于對抗樣本檢測的對抗攻擊防御 153
6.1.5 數(shù)字域?qū)构舴烙渌侄? 155
6.2 物理域?qū)构舴烙? 155
6.2.1 物理域?qū)构舻奶厥庑? 156
6.2.2 物理域?qū)构舴烙椒? 158
6.3 隱私攻擊防御 160
6.3.1 模型堆疊 161
6.3.2 模型水印 163
6.3.3 差分隱私 166
6.4 本章小結(jié) 171
參考文獻 172
第7章 對抗性機器學習算法實踐 174
7.1 機器學習可解釋性 174
7.1.1 內(nèi)生可解釋性 175
7.1.2 后置可解釋性 176
7.1.3 可解釋性的應用 178
7.2 機器學習公平性 179
7.2.1 公平性準則 179
7.2.2 公平性測試 182
7.2.3 公平性修復 184
7.3 機器學習框架漏洞 185
7.3.1 機器學習框架性能漏洞 187
7.3.2 機器學習框架環(huán)境漏洞 188
7.3.3 機器學習框架功能漏洞 189
7.4 深度偽造生成 191
7.4.1 深度偽造生成概述 191
7.4.2 深度偽造人臉生成 192
7.4.3 文本內(nèi)容生成 196
7.5 深度偽造檢測 198
7.5.1 深度偽造檢測概述 198
7.5.2 深度偽造人臉檢測 199
7.5.3 生成文本檢測 202
7.6 本章小結(jié) 204
參考文獻 205
第8章 對抗性機器學習與安全的展望 209
8.1 訓練階段攻擊展望 209
8.2 訓練階段防御展望 210
8.3 推理階段攻擊展望 211
8.4 推理階段防御展望 212
8.5 對抗性機器學習展望 213
參考文獻 214
名詞索引 218