第1章 數(shù)據(jù)的重要性 001
1.1 數(shù)據(jù)在AI 大模型中的核心作用002
1.1.1 大模型的數(shù)據(jù)驅(qū)動(dòng)特性002
1.1.2 數(shù)據(jù)與模型精度的關(guān)系004
1.2 數(shù)據(jù)質(zhì)量對(duì)模型性能的影響006
1.2.1 數(shù)據(jù)噪聲與模型偏差006
1.2.2 數(shù)據(jù)完整性與一致性007
1.3 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挑戰(zhàn)008
1.3.1 數(shù)據(jù)存儲(chǔ)與管理008
1.3.2 數(shù)據(jù)隱私與安全009
1.4 新興技術(shù)在數(shù)據(jù)處理中的應(yīng)用 010
1.4.1 云計(jì)算與分布式存儲(chǔ) 010
1.4.2 邊緣計(jì)算與實(shí)時(shí)數(shù)據(jù)處理 011
1.4.3 人工智能和機(jī)器學(xué)習(xí)在數(shù)據(jù)處理中的應(yīng)用 012
第2章 數(shù)據(jù)采集與清洗 014
2.1 數(shù)據(jù)采集的方法 015
2.1.1 網(wǎng)絡(luò)爬蟲與數(shù)據(jù)抓取 015
2.1.2 數(shù)據(jù)庫與數(shù)據(jù)集的利用 017
2.1.3 傳感器與實(shí)時(shí)數(shù)據(jù)采集 017
2.2 數(shù)據(jù)清洗的技術(shù)022
2.2.1 缺失值處理022
2.2.2 噪聲與異常值檢測(cè)024
2.2.3 數(shù)據(jù)一致性與重復(fù)值處理027
第3章 數(shù)據(jù)探索與可視化029
3.1 數(shù)據(jù)探索的目的與方法030
3.1.1 探索性數(shù)據(jù)分析(EDA)030
3.1.2 數(shù)據(jù)探索工具和技術(shù) 031
3.2 數(shù)據(jù)可視化技術(shù)032
3.2.1 基本圖表與統(tǒng)計(jì)圖表033
3.2.2 高級(jí)可視化技術(shù)033
3.3 數(shù)據(jù)特征和模式的發(fā)現(xiàn)034
3.3.1 數(shù)據(jù)分布與統(tǒng)計(jì)特征035
3.3.2 相關(guān)性分析037
3.4 新興可視化技術(shù)038
3.4.1 增強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR)可視化039
3.4.2 動(dòng)態(tài)與實(shí)時(shí)數(shù)據(jù)可視化040
第4章 特征選擇042
4.1 特征選擇的重要性043
4.1.1 特征選擇對(duì)模型性能的影響044
4.1.2 過擬合與特征選擇045
4.2 常用特征選擇方法047
4.2.1 過濾法048
4.2.2 包裝法048
4.2.3 嵌入法049
4.3 特征選擇后的評(píng)估指標(biāo)049
4.3.1 特征重要性評(píng)分050
4.3.2 交叉驗(yàn)證050
4.4 新興特征選擇方法052
4.4.1 基于強(qiáng)化學(xué)習(xí)的特征選擇052
4.4.2 自適應(yīng)特征選擇技術(shù)053
第5章 特征提取055
5.1 特征提取的概念與意義056
5.1.1 特征提取在數(shù)據(jù)處理中的角色056
5.1.2 特征提取的基本流程058
5.2 從原始數(shù)據(jù)中提取特征的方法059
5.2.1 數(shù)值數(shù)據(jù)的特征提取059
5.2.2 類別數(shù)據(jù)的特征提取060
5.3 自動(dòng)化特征提取工具與技術(shù)062
5.3.1 自動(dòng)編碼器062
5.3.2 深度學(xué)習(xí)中的特征提取064
5.4 新興特征提取技術(shù)065
5.4.1 基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的特征提取066
5.4.2 遷移學(xué)習(xí)中的特征提取066
第6章 特征構(gòu)造068
6.1 特征構(gòu)造的重要性069
6.1.1 特征構(gòu)造對(duì)模型的影響069
6.1.2 領(lǐng)域知識(shí)在特征構(gòu)造中的應(yīng)用069
6.2 常用特征構(gòu)造方法070
6.2.1 數(shù)學(xué)變換與組合070
6.2.2 領(lǐng)域知識(shí)與特征交互 071
6.3 特征構(gòu)造的實(shí)踐案例072
6.4 新興特征構(gòu)造技術(shù)073
6.4.1 基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的特征構(gòu)造073
6.4.2 多模態(tài)數(shù)據(jù)的特征構(gòu)造074
第7章 數(shù)據(jù)轉(zhuǎn)換076
7.1 數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化077
7.1.1 標(biāo)準(zhǔn)化方法077
7.1.2 歸一化技術(shù)078
7.2 數(shù)據(jù)變換技術(shù)079
7.2.1 對(duì)數(shù)變換與冪變換079
7.2.2 離散化與二值化 081
7.3 新興數(shù)據(jù)轉(zhuǎn)換技術(shù)083
7.3.1 基于量子計(jì)算的數(shù)據(jù)變換083
7.3.2 自適應(yīng)數(shù)據(jù)變換方法084
第8章 降維技術(shù)087
8.1 降維的意義088
8.1.1 降維對(duì)計(jì)算復(fù)雜度的影響088
8.1.2 降維與數(shù)據(jù)可視化 089
8.2 主成分分析(PCA)089
8.2.1 PCA 的基本原理089
8.2.2 PCA 在實(shí)際中的應(yīng)用 090
8.3 t-SNE 091
8.3.1 t-SNE 的基本原理 091
8.3.2 t-SNE 在高維數(shù)據(jù)中的應(yīng)用 092
8.4 其他降維方法093
8.4.1 線性判別分析(LDA)093
8.4.2 非負(fù)矩陣分解(NMF)095
8.5 新興降維技術(shù)097
8.5.1 基于深度學(xué)習(xí)的降維方法097
8.5.2 非線性降維技術(shù)097
第9章 文本特征工程099
9.1 自然語言處理中的特征工程 100
9.1.1 NLP 中特征工程的重要性 100
9.1.2 NLP 中的常用特征 100
9.2 文本預(yù)處理 101
9.2.1 分詞與詞形還原 101
9.2.2 停用詞與詞頻 102
9.3 文本特征提取方法 102
9.3.1 詞袋模型(BoW) 102
9.3.2 TF-IDF 104
9.3.3 詞向量與詞嵌入表示 105
9.4 新興文本特征提取技術(shù) 107
9.4.1 基于BERT 的特征提取 107
9.4.2 多語言嵌入技術(shù) 108
第10章 圖像和音頻特征工程 110
10.1 圖像數(shù)據(jù)的特征提取111
10.1.1 基本圖像處理技術(shù)111
10.1.2 深度學(xué)習(xí)中的圖像特征提取 113
10.2 音頻數(shù)據(jù)的特征提取 115
10.2.1 時(shí)域與頻域特征 115
10.2.2 聲譜圖與MFCC 116
10.3 新興圖像與音頻特征提取技術(shù) 117
10.3.1 基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取 117
10.3.2 基于Transformer 的特征提取 118
第11章 時(shí)間序列分析 120
11.1 時(shí)間序列數(shù)據(jù)的特點(diǎn) 121
11.1.1 時(shí)間序列數(shù)據(jù)的獨(dú)特性 121
11.1.2 時(shí)間序列數(shù)據(jù)的預(yù)處理 123
11.2 時(shí)間序列特征提取 125
11.2.1 基本統(tǒng)計(jì)特征 125
11.2.2 滑動(dòng)窗口與時(shí)間延遲嵌入 126
11.3 時(shí)間序列預(yù)測(cè)模型 128
11.4 新興時(shí)間序列分析技術(shù) 130
11.4.1 基于注意力機(jī)制的時(shí)間序列分析 130
11.4.2 變分自編碼器(VAE)在時(shí)間序列中的應(yīng)用 131
第12章 模型與特征的交互 132
12.1 模型選擇對(duì)特征工程的影響 133
12.1.1 模型與特征選擇的協(xié)同作用 133
12.1.2 不同模型對(duì)特征工程的要求 134
12.2 特征重要性評(píng)估與模型解釋 135
12.2.1 特征重要性評(píng)估方法 136
12.2.2 模型解釋與可解釋性 137
12.3 不同模型的特征工程策略 138
12.3.1 線性模型 138
12.3.2 非線性模型 139
12.3.3 集成模型 140
12.4 新興模型與特征交互技術(shù) 140
12.4.1 基于混合專家模型的特征工程 141
12.4.2 自適應(yīng)模型選擇與特征優(yōu)化 141
第13章 自動(dòng)化特征工程 143
13.1 自動(dòng)化特征選擇 144
13.1.1 自動(dòng)化特征選擇工具 144
13.1.2 自動(dòng)化特征選擇的優(yōu)勢(shì) 146
13.2 自動(dòng)化特征構(gòu)造 146
13.2.1 自動(dòng)化特征構(gòu)造工具 147
13.2.2 實(shí)踐中的自動(dòng)化特征構(gòu)造 148
13.3 自動(dòng)化特征工程平臺(tái)與實(shí)踐案例 149
13.3.1 現(xiàn)有自動(dòng)化特征工程平臺(tái)介紹 149
13.3.2 自動(dòng)化特征工程的成功案例 150
13.4 新興自動(dòng)化特征工程技術(shù) 151
13.4.1 基于AutoML 的特征工程 152
13.4.2 生成對(duì)抗網(wǎng)絡(luò)(GAN)在特征工程中的應(yīng)用 153