數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(第2版 微課版)
定 價(jià):59.8 元
- 作者:袁漢寧 王樹良 阮思捷 耿晶 金福生
- 出版時(shí)間:2025/12/1
- ISBN:9787115677884
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.13
- 頁碼:247
- 紙張:
- 版次:02
- 開本:16開
本書系統(tǒng)地介紹了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本原理和應(yīng)用方法,內(nèi)容主要包括數(shù)據(jù)倉庫的概念和相關(guān)技術(shù)發(fā)展、數(shù)據(jù)模型、數(shù)據(jù) ETL,數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類、回歸分析、關(guān)聯(lián)規(guī)則挖掘、數(shù)據(jù)聚類、異常檢測、數(shù)據(jù)可視化等算法,以及大數(shù)據(jù)智能平臺的設(shè)計(jì)與實(shí)現(xiàn)。各章節(jié)以數(shù)據(jù)為“經(jīng)”組織,以算法為“緯”講述,既自然銜接又相對獨(dú)立。讀者可按教材的自然順序?qū)W習(xí),也可據(jù)實(shí)際需要挑選相關(guān)章節(jié)學(xué)習(xí)。 本書適合高等學(xué)校大數(shù)據(jù)科學(xué)與技術(shù)、人工智能、計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程等專業(yè)方向的本科生、研究生作為教材或參考書,也可供相關(guān)領(lǐng)域的科研、工程人員參考。
1.引入大量案例,注重實(shí)踐和工程應(yīng)用。
2.引入產(chǎn)教融合項(xiàng)目,案例為產(chǎn)教融合項(xiàng)目成果和科研成果,具有前沿性和引領(lǐng)性。
3. 配套資源豐富,教學(xué)資源豐富。
王樹良,教授,博士生導(dǎo)師,北京理工大學(xué)電子政務(wù)研究院執(zhí)行院長,第十一屆全國青聯(lián)委員,中國制造企業(yè)雙創(chuàng)發(fā)展聯(lián)盟副理事長,國家科技創(chuàng)新專項(xiàng)專家咨詢組秘書長,教育部高等學(xué)校軟件工程專業(yè)教學(xué)指導(dǎo)委員會委員,中國指揮與控制學(xué)會認(rèn)知與行為專業(yè)委員會主任,數(shù)字政府建設(shè)服務(wù)聯(lián)盟專家指導(dǎo)委員會委員,大數(shù)據(jù)系統(tǒng)軟件國家工程研究中心技術(shù)指導(dǎo)委員會委員,Chinese Journal of Electronics編委。 入選國家高層次領(lǐng)軍人才、科技部領(lǐng)軍人才、教育部新世紀(jì)優(yōu)秀人才、CICC青年科學(xué)家等。 主持國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國家科技創(chuàng)新戰(zhàn)略重大專項(xiàng)、國家自然科學(xué)基金項(xiàng)目等。 獲國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)、全國優(yōu)秀博士學(xué)位論文、中國指揮與控制學(xué)會技術(shù)發(fā)明一等獎(jiǎng)等。
第1章 概述 1
1.1 引言 1
1.1.1 數(shù)據(jù)劇增 1
1.1.2 生產(chǎn)要素 2
1.1.3 數(shù)據(jù)戰(zhàn)略 2
1.2 研究歷程 3
1.2.1 數(shù)據(jù)管理分析的歷程 3
1.2.2 數(shù)據(jù)挖掘的歷程 4
1.2.3 大數(shù)據(jù)的歷程 5
1.3 數(shù)據(jù)挖掘的流程 6
1.3.1 業(yè)務(wù)理解 7
1.3.2 數(shù)據(jù)理解 7
1.3.3 數(shù)據(jù)準(zhǔn)備 8
1.3.4 建立模型 8
1.3.5 模型評估 8
1.3.6 結(jié)果部署 9
1.4 數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用 9
1.4.1 能源環(huán)!9
1.4.2 醫(yī)療衛(wèi)生 9
1.4.3 社會治安 10
1.4.4 城市發(fā)展 10
1.4.5 影視娛樂 10
1.4.6 推薦系統(tǒng) 11
1.5 關(guān)鍵挑戰(zhàn) 11
1.5.1 數(shù)據(jù)龐大價(jià)值疏 11
1.5.2 多源異構(gòu)變化快 12
1.5.3 解釋困難隱私多 13
本章習(xí)題 13
第2章 數(shù)據(jù) 14
2.1 數(shù)據(jù)的基本內(nèi)容 14
2.1.1 蘊(yùn)含內(nèi)容 14
2.1.2 基本類型 14
2.1.3 數(shù)據(jù)形態(tài) 18
2.1.4 數(shù)據(jù)屬性 18
2.2 數(shù)據(jù)的統(tǒng)計(jì)特征 20
2.2.1 集中趨勢 20
2.2.2 離散程度 21
2.2.3 分布形狀 22
2.3 數(shù)據(jù)的相似相異 23
2.3.1 集合距離 24
2.3.2 幾何距離 24
2.3.3 語義距離 25
本章習(xí)題 26
第3章 數(shù)據(jù)預(yù)處理 27
3.1 數(shù)據(jù)清洗 27
3.1.1 被污染的數(shù)據(jù) 27
3.1.2 數(shù)據(jù)清洗的過程 30
3.1.3 數(shù)據(jù)清洗的方法 30
3.2 數(shù)據(jù)變換 33
3.2.1 數(shù)據(jù)平滑 33
3.2.2 數(shù)據(jù)銳化 33
3.2.3 數(shù)據(jù)規(guī)范化 34
3.2.4 數(shù)據(jù)離散化 35
3.3 數(shù)據(jù)集成 38
3.3.1 基于數(shù)據(jù)倉庫的方案 38
3.3.2 基于虛擬集成系統(tǒng)的方案 39
3.4 數(shù)據(jù)融合 40
3.4.1 基于知識圖譜的數(shù)據(jù)融合 41
3.4.2 基于知識圖譜的融合數(shù)據(jù)應(yīng)用 42
3.5 數(shù)據(jù)歸約 42
3.5.1 屬性歸約 42
3.5.2 數(shù)值歸約 44
本章習(xí)題 46
第4章 數(shù)據(jù)倉庫和數(shù)據(jù)湖 47
4.1 數(shù)據(jù)倉庫的概念 47
4.1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 47
4.1.2 數(shù)據(jù)倉庫的特點(diǎn) 48
4.1.3 傳統(tǒng)數(shù)據(jù)倉庫的Inmon模式、Kimball模式 49
4.1.4 動(dòng)態(tài)數(shù)據(jù)倉庫 50
4.1.5 海量數(shù)據(jù)倉庫 50
4.2 數(shù)據(jù)倉庫模型 51
4.2.1 星型模型 51
4.2.2 雪花型模型 52
4.2.3 星-雪花型模型 53
4.2.4 數(shù)據(jù)立方體 53
4.3 數(shù)據(jù)ETL 55
4.3.1 數(shù)據(jù)抽取 55
4.3.2 數(shù)據(jù)轉(zhuǎn)換 56
4.3.3 數(shù)據(jù)加載 57
4.4 OLAP 57
4.4.1 從OLTP到OLAP 57
4.4.2 OLAP系統(tǒng)分類 58
4.4.3 OLAP基本操作 59
4.4.4 基于OLAP的數(shù)據(jù)挖掘 61
4.5 數(shù)據(jù)湖 61
4.5.1 數(shù)據(jù)湖的架構(gòu) 62
4.5.2 數(shù)據(jù)湖的組成部分及其關(guān)系 62
4.5.3 存儲系統(tǒng) 64
4.5.4 數(shù)據(jù)探索 65
4.6 湖倉一體 66
4.6.1 湖倉一體的架構(gòu) 67
4.6.2 湖倉一體的優(yōu)劣 68
本章習(xí)題 68
第5章 關(guān)聯(lián)規(guī)則 69
5.1 關(guān)聯(lián)規(guī)則的基本思想 69
5.2 關(guān)聯(lián)規(guī)則的主要算法 71
5.2.1 Apriori算法 72
5.2.2 FP-Growth算法——Apriori算法的優(yōu)化 77
5.3 關(guān)聯(lián)規(guī)則的研發(fā)歷程 79
本章習(xí)題 80
第6章 聚類 81
6.1 聚類的基本思想 81
6.1.1 簇 81
6.1.2 聚類分析 81
6.1.3 聚類評價(jià)指標(biāo) 82
6.2 聚類的主要算法 84
6.2.1 k-means算法 85
6.2.2 高斯混合模型 90
6.2.3 層次聚類算法 92
6.2.4 DBSCAN聚類算法 98
6.2.5 網(wǎng)格聚類 101
6.2.6 拓?fù)鋱D聚類 103
6.2.7 引力聚類 105
6.2.8 深度聚類 107
6.3 聚類的研發(fā)歷程 109
本章習(xí)題 110
第7章 分類 111
7.1 分類的基本思想 111
7.1.1 相關(guān)概念 111
7.1.2 算法評價(jià)指標(biāo) 111
7.2 分類的主要算法 113
7.2.1 決策樹算法及其優(yōu)化 113
7.2.2 CART算法 121
7.2.3 SVM算法 124
7.2.4 KNN算法 129
7.2.5 樸素貝葉斯算法 132
7.3 分類的研發(fā)歷程 136
本章習(xí)題 137
第8章 回歸分析 138
8.1 回歸分析的基本思想 138
8.2 回歸分析的主要模型 138
8.2.1 線性回歸模型 139
8.2.2 非線性回歸模型 143
8.2.3 逐步回歸分析 145
8.2.4 邏輯回歸分析 146
8.3 回歸分析的研發(fā)歷程 148
本章習(xí)題 149
第9章 異常檢測 150
9.1 異常檢測的基本思想 150
9.1.1 異常種類 150
9.1.2 異常檢測方法 150
9.2 異常檢測的主要算法 151
9.2.1 基于統(tǒng)計(jì)的異常檢測 152
9.2.2 基于距離的異常檢測 156
9.2.3 基于密度的異常檢測 157
9.2.4 基于聚類的異常檢測 159
9.2.5 時(shí)間序列異常檢測 162
9.3 異常檢測的研發(fā)歷程 164
本章習(xí)題 166
第10章 高級數(shù)據(jù)分析方法 167
10.1 集成學(xué)習(xí) 167
10.1.1 裝袋算法 167
10.1.2 提升 168
10.2 深度學(xué)習(xí) 169
10.2.1 多層感知機(jī) 170
10.2.2 卷積神經(jīng)網(wǎng)絡(luò) 172
10.2.3 遞歸神經(jīng)網(wǎng)絡(luò) 173
10.2.4 Transformer 174
10.3 強(qiáng)化學(xué)習(xí) 178
10.3.1 馬爾可夫決策過程 178
10.3.2 基于值的強(qiáng)化學(xué)習(xí) 179
10.3.3 基于策略的強(qiáng)化學(xué)習(xí) 181
10.4 大模型預(yù)訓(xùn)練 183
10.4.1 BERT 183
10.4.2 GPT 185
10.4.3 BERT與GPT對比分析 186
本章習(xí)題 187
第11章 數(shù)據(jù)可視化 189
11.1 可視化基本思想 189
11.1.1 可視化人機(jī)交互 189
11.1.2 可視化分析 189
11.2 可視化主要方法 189
11.2.1 統(tǒng)計(jì)數(shù)據(jù)可視化方法 190
11.2.2 高維數(shù)據(jù)可視化方法 193
11.2.3 圖數(shù)據(jù)可視化方法 194
11.2.4 文本數(shù)據(jù)可視化方法 197
11.2.5 時(shí)空數(shù)據(jù)可視化方法 199
11.2.6 交互可視化方法 199
11.3 基于可視化的交互式數(shù)據(jù)挖掘方法 200
11.3.1 基于可視化的交互式數(shù)據(jù)挖掘方法分類 200
11.3.2 可視化增強(qiáng)的通用數(shù)據(jù)挖掘方法 200
11.3.3 面向應(yīng)用場景的方法 201
11.4 可視化數(shù)據(jù)分析挖掘的研發(fā)歷程 203
本章習(xí)題 204
第12章 典型應(yīng)用 205
12.1 客戶流失預(yù)測 205
12.1.1 業(yè)務(wù)理解 205
12.1.2 數(shù)據(jù)理解 205
12.1.3 數(shù)據(jù)準(zhǔn)備 207
12.1.4 構(gòu)建模型 215
12.1.5 評估模型 221
12.1.6 結(jié)果部署 223
12.2 客戶穩(wěn)定度評估 224
12.2.1 業(yè)務(wù)理解 224
12.2.2 數(shù)據(jù)理解 225
12.2.3 數(shù)據(jù)準(zhǔn)備 229
12.2.4 構(gòu)建模型 230
12.2.5 評估模型 237
12.2.6 結(jié)果部署 239
12.3 基于梧桐·鴻鵠大數(shù)據(jù)實(shí)訓(xùn)平臺的案例實(shí)踐 239
12.3.1 客戶流失預(yù)測 240
12.3.2 客戶穩(wěn)定度評估 244
本章習(xí)題 245
參考文獻(xiàn) 246