本書系統(tǒng)講解了大模型智能體的基本內(nèi)容及其代碼實(shí)現(xiàn),是一本著眼于大模型智能體教學(xué)實(shí)踐的教材。
本書包含4個(gè)部分:第一部分為智能體基礎(chǔ)篇(第1~4章),介紹大模型與智能體以及生成式大語言模型的基礎(chǔ)知識、提示工程的技術(shù)和實(shí)用方法、智能體評估與調(diào)試方法;第二部分為智能體架構(gòu)篇(第5~8章),講解主流的智能體架構(gòu)設(shè)計(jì)、記憶管理與檢索增強(qiáng)、工具調(diào)用以及推理、規(guī)劃與樹搜索增強(qiáng)核心組件;第三部分為智能體微調(diào)篇(第9~11章),主要討論指令微調(diào)、低秩適應(yīng)微調(diào)與模型量化以及強(qiáng)化微調(diào)等大模型智能體微調(diào)技術(shù);第四部分為智能體前沿篇(第 12~15 章),涉及多模態(tài)智能體、多智能體系統(tǒng)、智能體安全以及智能體協(xié)議等前沿領(lǐng)域的最新進(jìn)展。本書將大模型智能體的理論知識和實(shí)踐操作相結(jié)合,以大量示例和代碼帶領(lǐng)讀者系統(tǒng)掌握大模型智能體的研究內(nèi)容和基本原理,為后續(xù)涉足大模型智能體的前沿應(yīng)用打下基礎(chǔ)。
本書適合對大模型智能體感興趣的專業(yè)技術(shù)人員和研究人員閱讀,同時(shí)適合作為高等院校人工智能相關(guān)專業(yè)中大模型智能體課程的教材。
·名家作品:上海交通大學(xué)ACM班俞勇教授、博導(dǎo)張偉楠教授又一“動手學(xué)”力作。
·配套資源豐富:提供配套課件+理論解讀視頻+源代碼+課后習(xí)題+樣例數(shù)據(jù)+提示詞模板等
·大咖推薦:陸奇|汪軍|安波|謝賽寧等多位業(yè)內(nèi)領(lǐng)軍人士推薦
·學(xué)用結(jié)合:系統(tǒng)梳理大模型智能體的主干知識,搭配豐富的配套資源,兼顧教學(xué)與自學(xué)需求
溫睦寧,上海交通大學(xué)人工智能學(xué)院助理研究員,2025年博士畢業(yè)于上海交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。研究方向聚焦于強(qiáng)化學(xué)習(xí)、大模型智能體以及多智能體系統(tǒng)等方面,擁有豐富的強(qiáng)化學(xué)習(xí)及智能體系統(tǒng)實(shí)踐經(jīng)驗(yàn)。累計(jì)發(fā)表國際學(xué)術(shù)論文20余篇,自2022年以來持續(xù)擔(dān)任NeurIPS、ICML、ICLR等國際學(xué)術(shù)會議審稿人。
林江浩,上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院助理教授,2025年博士畢業(yè)于上海交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。研究方向聚焦于生成式人工智能與數(shù)據(jù)科學(xué),以及此類技術(shù)在推薦系統(tǒng)、運(yùn)籌優(yōu)化、智能商務(wù)等真實(shí)場景中的應(yīng)用。累計(jì)發(fā)表國際學(xué)術(shù)論文40余篇,獲得兩項(xiàng)最佳論文獎(jiǎng),1篇論文入選ESI全球Top 1%高被引論文。
張偉楠,上海交通大學(xué)教授、博士生導(dǎo)師,ACM班機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)課程授課教師,上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師。主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、大模型智能體、具身智能。吳文俊人工智能優(yōu)秀青年獎(jiǎng)、達(dá)摩院青橙獎(jiǎng)得主,主持國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目和科技部科技創(chuàng)新2030—“新一代人工智能”重大項(xiàng)目課題。
俞勇,享受國務(wù)院特殊津貼專家,首批“國家高層次人才特殊支持計(jì)劃”教學(xué)名師,上海交通大學(xué)特聘教授,上海交通大學(xué)ACM班創(chuàng)辦人,APEX數(shù)據(jù)與知識管理實(shí)驗(yàn)室主任。曾獲得“全國模范教師”“全國師德標(biāo)兵”“CCF杰出教育獎(jiǎng)”“上海市五一勞動獎(jiǎng)?wù)隆焙汀吧虾=煌ù髮W(xué)校長獎(jiǎng)”等榮譽(yù)。2018年創(chuàng)辦伯禹人工智能學(xué)院,在上海交通大學(xué)ACM班人工智能專業(yè)課程體系的基礎(chǔ)上,對人工智能課程體系進(jìn)行創(chuàng)新,致力于培養(yǎng)卓越的人工智能算法工程師和研究員。2025年創(chuàng)辦知春創(chuàng)新中心,探索中學(xué)和大學(xué)貫通式人才培養(yǎng)模式,打造AI時(shí)代創(chuàng)新人才培養(yǎng)“加速器”。
第 一部分 智能體基礎(chǔ)篇
第 1章 初探大模型智能體 2
1.1 概述 2
1.2 智能體的基本概念 2
1.3 智能體的交互機(jī)制 4
1.3.1 智能體與人的交互 4
1.3.2 智能體與環(huán)境的交互 5
1.4 大模型與智能體的技術(shù)融合 6
1.5 實(shí)踐:構(gòu)建第 一個(gè)智能體 6
1.6 小結(jié) 10
第 2章 生成式大語言模型基礎(chǔ) 11
2.1 概述 11
2.2 生成式大語言模型的技術(shù)架構(gòu) 11
2.2.1 核心原理與發(fā)展歷程 11
2.2.2 主流模型對比和分析 12
2.3 生成式大語言模型的文本生成機(jī)制與特性 12
2.3.1 詞匯表與分詞器 13
2.3.2 自回歸生成原理 13
2.3.3 模型特性分析 14
2.4 生成式大語言模型的開源模型實(shí)踐應(yīng)用 15
2.5 生成式大語言模型的生成參數(shù) 18
2.5.1 溫度參數(shù) 18
2.5.2 采樣策略 18
2.6 生成式大語言模型的對話系統(tǒng)實(shí)踐 20
2.7 小結(jié) 23
2.8 參考文獻(xiàn) 23
第3章 提示工程 24
3.1 概述 24
3.2 提示工程的定義 24
3.3 提示詞 25
3.3.1 提示詞的標(biāo)準(zhǔn)組成 28
3.3.2 提示詞的設(shè)計(jì)原則 29
3.4 角色扮演策略 32
3.5 提示工程技術(shù) 33
3.5.1 思維鏈 33
3.5.2 上下文學(xué)習(xí) 36
3.5.3 自我一致性 37
3.5.4 推理提示 37
3.5.5 反思提示 38
3.6 提示工程的實(shí)用方法 39
3.6.1 提示工程調(diào)優(yōu) 39
3.6.2 常用的提示詞 44
3.6.3 提示工程開發(fā)實(shí)踐資源 45
3.7 小結(jié) 45
3.8 參考文獻(xiàn) 46
第4章 智能體評估與調(diào)試 47
4.1 概述 47
4.2 環(huán)境準(zhǔn)備與模型部署 47
4.3 智能體異常場景 48
4.3.1 幻覺現(xiàn)象 48
4.3.2 工具調(diào)用異常 49
4.3.3 推理鏈錯(cuò)誤 50
4.4 智能體與聊天機(jī)器人的差異 50
4.5 智能體的評估方法 51
4.5.1 人工測試與用戶反饋 52
4.5.2 自動化評估與基準(zhǔn)數(shù)據(jù)集測試 53
4.5.3 大模型自動評測 58
4.6 智能體調(diào)試與問題定位 60
4.6.1 調(diào)試的基本流程和問題定位的常用方法 60
4.6.2 典型問題案例分析 60
4.7 小結(jié) 63
4.8 參考文獻(xiàn) 65
第二部分 智能體架構(gòu)篇
第5章 智能體架構(gòu)設(shè)計(jì) 68
5.1 概述 68
5.2 智能體架構(gòu)的核心組件 68
5.2.1 記憶模塊 69
5.2.2 工具調(diào)用模塊 71
5.2.3 復(fù)雜推理與規(guī)劃模塊 72
5.2.4 執(zhí)行模塊 73
5.3 智能體工作流 73
5.4 常見的智能體架構(gòu)模式 74
5.4.1 基于提示詞的混合決策架構(gòu) 74
5.4.2 規(guī)劃—執(zhí)行—反饋架構(gòu) 75
5.4.3 自主循環(huán)架構(gòu) 76
5.5 常用的智能體框架 77
5.5.1 LangChain:模塊化開發(fā)的標(biāo)桿 77
5.5.2 LlamaIndex:非結(jié)構(gòu)化數(shù)據(jù)處理專家 77
5.5.3 Haystack:企業(yè)級信息檢索框架 78
5.5.4 常用智能體框架的對比 78
5.6 實(shí)踐:最簡智能體架構(gòu)實(shí)現(xiàn) 79
5.7 小結(jié) 87
5.8 參考文獻(xiàn) 88
第6章 記憶管理與檢索增強(qiáng) 89
6.1 概述 89
6.2 智能體的記憶管理 89
6.2.1 記憶管理的必要性 89
6.2.2 上下文窗口限制機(jī)制 90
6.2.3 實(shí)驗(yàn):智能體遺忘現(xiàn)象驗(yàn)證 91
6.2.4 記憶管理機(jī)制的核心功能 93
6.3 短期記憶與長期記憶 93
6.3.1 短期記憶機(jī)制 93
6.3.2 實(shí)驗(yàn):滑動窗口短期記憶實(shí)現(xiàn) 94
6.3.3 長期記憶機(jī)制 96
6.3.4 實(shí)驗(yàn):簡易長期記憶實(shí)現(xiàn) 97
6.4 上下文管理 100
6.4.1 內(nèi)容選擇 101
6.4.2 實(shí)驗(yàn):基于重要性的記憶選擇 101
6.4.3 摘要提取 102
6.4.4 實(shí)驗(yàn):對話摘要生成 103
6.5 檢索增強(qiáng)生成 105
6.5.1 構(gòu)建知識庫 106
6.5.2 實(shí)驗(yàn):文檔向量化與索引構(gòu)建 107
6.5.3 相似度檢索 108
6.5.4 基于FAISS的相似度檢索實(shí)踐 109
6.5.5 上下文增強(qiáng) 110
6.5.6 上下文增強(qiáng)的知識回答實(shí)踐 111
6.5.7 記憶更新機(jī)制 113
6.6 實(shí)用技巧與注意事項(xiàng) 114
6.6.1 嵌入模型與向量庫選型 114
6.6.2 檢索干擾與提示工程 115
6.6.3 數(shù)據(jù)隱私與知識庫存儲策略 115
6.7 實(shí)踐:構(gòu)建文檔問答智能體 116
6.8 小結(jié) 123
6.9 參考文獻(xiàn) 124
第7章 工具調(diào)用 125
7.1 概述 125
7.2 工具調(diào)用的核心流程 126
7.3 引入工具的必要性 126
7.3.1 大模型的局限性 127
7.3.2 能力補(bǔ)全的關(guān)鍵路徑 127
7.3.3 實(shí)驗(yàn)驗(yàn)證 128
7.4 常見的工具類型及應(yīng)用場景 130
7.4.1 信息檢索類工具 130
7.4.2 計(jì)算與執(zhí)行類工具 131
7.4.3 設(shè)備控制類工具 132
7.5 如何選擇并使用工具 133
7.5.1 工具接口設(shè)計(jì) 133
7.5.2 工具的調(diào)用和決策機(jī)制 135
7.5.3 工具的解析與執(zhí)行 136
7.6 多工具的整合與調(diào)度 137
7.6.1 多工具的選擇策略 138
7.6.2 多工具的協(xié)作與順序執(zhí)行 138
7.6.3 工具優(yōu)先級與回退機(jī)制 139
7.6.4 多工具調(diào)用的策略 140
7.7 實(shí)踐:構(gòu)建多功能智能體 140
7.8 小結(jié) 144
7.9 參考文獻(xiàn) 145
第8章 推理、規(guī)劃與樹搜索增強(qiáng) 146
8.1 概述 146
8.2 智能體推理與規(guī)劃面臨的挑戰(zhàn) 147
8.2.1 從失敗案例看解決推理任務(wù)的難點(diǎn) 147
8.2.2 思維鏈 151
8.2.3 思維鏈的局限性 151
8.3 智能體任務(wù)規(guī)劃的策略 152
8.3.1 規(guī)劃—執(zhí)行范式 153
8.3.2 子任務(wù)分解 154
8.3.3 動態(tài)調(diào)整與反思 155
8.4 基于搜索算法的推理增強(qiáng) 156
8.4.1 思維樹 157
8.4.2 自我一致性 158
8.4.3 搜索算法結(jié)合 160
8.5 實(shí)踐:復(fù)雜任務(wù)智能體 161
8.6 小結(jié) 175
8.7 參考文獻(xiàn) 176
第三部分 智能體微調(diào)篇
第9章 指令微調(diào) 178
9.1 概述 178
9.2 指令微調(diào)的原理 178
9.3 數(shù)據(jù)集準(zhǔn)備 179
9.3.1 數(shù)據(jù)的生成方式 179
9.3.2 數(shù)據(jù)的格式 181
9.3.3 數(shù)據(jù)的質(zhì)量 181
9.4 實(shí)踐:指令微調(diào)訓(xùn)練流程 182
9.4.1 模型選擇和參數(shù)設(shè)置 182
9.4.2 訓(xùn)練流程 183
9.4.3 效果評估 185
9.5 拓展與實(shí)踐建議 188
9.6 小結(jié) 188
9.7 參考文獻(xiàn) 189
第 10章 低秩適應(yīng)微調(diào)與模型量化 190
10.1 概述 190
10.2 智能體微調(diào)的難點(diǎn) 191
10.3 LoRA微調(diào)的原理 191
10.4 LoRA微調(diào)實(shí)踐 194
10.4.1 加載模型和分詞器 194
10.4.2 加載數(shù)據(jù)集并預(yù)處理 196
10.4.3 LoRA微調(diào)實(shí)踐 198
10.4.4 全參數(shù)微調(diào)實(shí)踐 201
10.4.5 評估與分析 203
10.5 模型量化方法 207
10.5.1 8比特量化 208
10.5.2 4比特量化 211
10.5.3 靜態(tài)量化與動態(tài)量化 214
10.6 LoRA微調(diào)結(jié)合模型量化實(shí)踐 215
10.7 小結(jié) 223
10.8 參考文獻(xiàn) 225
第 11章 強(qiáng)化微調(diào) 226
11.1 概述 226
11.2 強(qiáng)化微調(diào)與傳統(tǒng)強(qiáng)化學(xué)習(xí)的對比 227
11.3 將文本生成建模為馬爾可夫決策過程 227
11.4 傳統(tǒng)強(qiáng)化學(xué)習(xí)基礎(chǔ) 228
11.4.1 價(jià)值優(yōu)化與策略優(yōu)化 228
11.4.2 Actor-Critic架構(gòu)與PPO算法 229
11.5 強(qiáng)化微調(diào)經(jīng)典方法與擴(kuò)展 230
11.5.1 基于人類反饋的強(qiáng)化學(xué)習(xí) 230
11.5.2 群組相對策略優(yōu)化 231
11.5.3 擴(kuò)展技術(shù):DAPO與VAPO 231
11.6 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì) 232
11.6.1 常見的獎(jiǎng)勵(lì)形式 232
11.6.2 過程獎(jiǎng)勵(lì)與結(jié)果獎(jiǎng)勵(lì) 232
11.6.3 獎(jiǎng)勵(lì)設(shè)計(jì)的原則 233
11.7 基于VeRL框架的強(qiáng)化微調(diào)實(shí)踐 233
11.8 小結(jié) 239
11.9 參考文獻(xiàn) 240
第四部分 智能體前沿篇
第 12章 多模態(tài)智能體 242
12.1 概述 242
12.2 多模態(tài)輸入與理解 242
12.2.1 以文本為介質(zhì)的多模態(tài)理解 243
12.2.2 原生多模態(tài)理解 244
12.3 多模態(tài)行為 246
12.4 實(shí)踐:GUI智能體——手機(jī)個(gè)人助手 247
12.5 小結(jié) 251
12.6 參考文獻(xiàn) 251
第 13章 多智能體系統(tǒng) 252
13.1 概述 252
13.2 多智能體的協(xié)作模式 253
13.3 典型架構(gòu)與代表性工作 254
13.3.1 通信模式 255
13.3.2 系統(tǒng)架構(gòu) 255
13.3.3 智能體的專業(yè)化策略 256
13.3.4 代表性項(xiàng)目 256
13.4 多智能體系統(tǒng)的應(yīng)用 257
13.4.1 軟件開發(fā)自動化 257
13.4.2 內(nèi)容創(chuàng)作與營銷 257
13.4.3 科研與學(xué)術(shù)論文寫作 258
13.5 實(shí)踐:構(gòu)建基于大模型的多智能體系統(tǒng) 259
13.6 小結(jié) 262
13.7 參考文獻(xiàn) 263
第 14章 智能體安全 264
14.1 概述 264
14.2 智能體攻擊 265
14.2.1 直接提示詞注入 266
14.2.2 間接提示詞注入 268
14.2.3 認(rèn)知黑客/任務(wù)劫持攻擊 269
14.3 智能體防御 273
14.3.1 輸入/輸出過濾與凈化 273
14.3.2 工具使用確認(rèn)與規(guī)劃限制 275
14.3.3 指令微調(diào)與加固 278
14.4 實(shí)踐:智能體紅藍(lán)對抗實(shí)驗(yàn) 278
14.4.1 藍(lán)隊(duì):構(gòu)建智能體 279
14.4.2 紅隊(duì):構(gòu)造惡意文章 280
14.4.3 開始對抗過程 280
14.5 小結(jié) 281
14.6 參考文獻(xiàn) 282
第 15章 智能體協(xié)議 283
15.1 概述 283
15.2 智能體協(xié)議的分類 284
15.2.1 模型上下文協(xié)議 284
15.2.2 A2A協(xié)議 286
15.3 智能體協(xié)議的評估維度 287
15.3.1 高效性 288
15.3.2 性能擴(kuò)展性 289
15.3.3 功能擴(kuò)展性 289
15.4 實(shí)踐:基于MCP的智能體助手 290
15.5 小結(jié) 295
15.6 參考文獻(xiàn) 296