CDA三級(jí)認(rèn)證教材:敏捷數(shù)據(jù)挖掘
定 價(jià):109 元
- 作者:CDA數(shù)據(jù)科學(xué)研究院
- 出版時(shí)間:2026/1/1
- ISBN:9787121516030
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:420
- 紙張:
- 版次:01
- 開本:16開
本書作為CDA三級(jí)認(rèn)證教材,打破了傳統(tǒng)的學(xué)院派知識(shí)整合模式,從業(yè)務(wù)應(yīng)用場(chǎng)景出發(fā)來組織內(nèi)容, 旨在更加貼近業(yè)務(wù)需求,而非單純羅列算法。經(jīng)過多年的打磨,本書精選了在行業(yè)應(yīng)用中價(jià)值最大的九類場(chǎng)景,并提供不同場(chǎng)景下構(gòu)建數(shù)據(jù)應(yīng)用的最佳實(shí)踐。 本書涉及的算法不僅涵蓋傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí),還結(jié)合企業(yè)實(shí)際需求,解構(gòu)了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的前沿方法,并提供了豐富的示例代碼, 以便讀者借鑒。本書分為三篇:理論篇、技術(shù)篇和管理篇。 理論篇共1章,講解數(shù)據(jù)挖掘的核心思維、算法模型和數(shù)據(jù)挖掘之間的關(guān)系, 以及數(shù)據(jù)挖掘的落地場(chǎng)景框架。技術(shù)篇共6章,講解決策類、識(shí)別類、優(yōu)化分析類模型的具體算法,以及參數(shù)調(diào)優(yōu)、特征工程、類別不平衡問題等內(nèi)容。管理篇共2章,講解 MLOps 和模型生命周期管理。
CDA 數(shù)據(jù)科學(xué)研究院簡(jiǎn)介2013年,大數(shù)據(jù)行業(yè)方興未艾,CDA 數(shù)據(jù)科學(xué)研究院孕育而生,是全球率先成立的專注于數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)研究機(jī)構(gòu)。CDA 數(shù)據(jù)科學(xué)研究院匯集國(guó)內(nèi)外數(shù)據(jù)行業(yè)專家,團(tuán)隊(duì)具有專業(yè)的學(xué)術(shù)素養(yǎng)、精湛的研究水平、扎實(shí)的企業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)、豐富的行業(yè)資源,通過對(duì)各類企業(yè)、社會(huì)組織等進(jìn)行全面、系統(tǒng)、深入的調(diào)查和訪問,獲得緊跟技術(shù)發(fā)展的經(jīng)驗(yàn)與數(shù)據(jù),并結(jié)合數(shù)據(jù)行業(yè)的未來發(fā)展方向進(jìn)行系統(tǒng)的研究,不斷研發(fā)創(chuàng)新的知識(shí)體系和技術(shù)應(yīng)用。近十年來,CDA 數(shù)據(jù)科學(xué)研究院秉持“專業(yè)性、前沿性、科學(xué)性”的定位,深耕數(shù)據(jù)分析、大數(shù)據(jù)、人工智能等核心領(lǐng)域,持續(xù)推進(jìn)數(shù)據(jù)科學(xué)的行業(yè)發(fā)展和數(shù)字化人才標(biāo)準(zhǔn)體系的建立。未來,CDA 數(shù)據(jù)科學(xué)研究院也將順應(yīng)數(shù)字化時(shí)代浪潮,持續(xù)開拓創(chuàng)新,繼續(xù)加大數(shù)據(jù)科學(xué)領(lǐng)域的內(nèi)容建設(shè),推進(jìn)人才數(shù)字化賦能,助力企業(yè)數(shù)字化轉(zhuǎn)型。
目錄
第1篇 原理篇
第1章 進(jìn)階數(shù)據(jù)分析思維
1.1 數(shù)字化時(shí)代的三種重要思維 1
1.1.1 設(shè)計(jì)思維 .2
1.1.2 敏捷思維 .4
1.1.3 數(shù)據(jù)思維 .7
1.2 數(shù)據(jù)思維在現(xiàn)代企業(yè)管理中的作用 8
1.2.1 探查階段的數(shù)據(jù)分析 .9
1.2.2 定義階段的數(shù)據(jù)分析 .10
1.2.3 設(shè)計(jì)階段的數(shù)據(jù)分析 .13
1.2.4 交付階段的數(shù)據(jù)分析 .15
第2章 量化策略分析框架.20
2.1 探索階段 23
2.2 診斷階段 24
2.3 指導(dǎo)階段 27
第3章 量化策略分析流程.29
3.1 發(fā)現(xiàn)問題 31
3.2 近因分析 33
3.3 根因分析 35
3.4 做出預(yù)測(cè) 36
3.5 制定方案 37
3.6 驗(yàn)證方案 38
3.7 工具支持 39
第2篇 技術(shù)篇
第4章 數(shù)據(jù)處理.42
4.1 使用pandas讀取結(jié)構(gòu)化數(shù)據(jù) .43
4.1.1 讀取數(shù)據(jù) .44
4.1.2 寫出數(shù)據(jù) .47
4.2 數(shù)據(jù)整合 47
4.2.1 行、列操作 .47
4.2.2 條件查詢 .51
4.2.3 橫向連接 .54
4.2.4 縱向合并 .57
4.2.5 排序 .60
4.2.6 分組匯總 .61
4.2.7 拆分列 .65
4.2.8 賦值與條件賦值 .66
4.3 數(shù)據(jù)清洗 69
4.3.1 重復(fù)值處理 .69
4.3.2 缺失值處理 .70
第5章 數(shù)據(jù)可視化74
5.1 Python可視化 74
5.1.1 Matplotlib繪圖庫(kù) .74
5.1.2 Seaborn繪圖庫(kù).83
5.2 描述性統(tǒng)計(jì)分析與繪圖 89
5.2.1 描述性統(tǒng)計(jì)進(jìn)行數(shù)據(jù)探索 .89
5.2.2 制作報(bào)表與統(tǒng)計(jì)圖形 .99
第6章 市場(chǎng)調(diào)研與數(shù)據(jù)預(yù)處理.107
6.1 數(shù)據(jù)采集方法 107
6.1.1 市場(chǎng)研究中的數(shù)據(jù) .107
6.1.2 概率抽樣方法 .108
6.1.3 非概率抽樣方法 .114
6.1.4 概率抽樣和非概率抽樣的比較 .116
6.2 市場(chǎng)調(diào)研和數(shù)據(jù)錄入 116
6.2.1 市場(chǎng)調(diào)研流程 .116
6.2.2 市場(chǎng)調(diào)研目標(biāo)設(shè)定 .117
6.2.3 市場(chǎng)調(diào)研前的準(zhǔn)備工作 .117
6.2.4 實(shí)施調(diào)研 .124
6.3 數(shù)據(jù)預(yù)處理基礎(chǔ) 125
6.3.1 數(shù)據(jù)預(yù)處理基本步驟 .125
6.3.2 錯(cuò)誤數(shù)據(jù)識(shí)別與處理 .126
6.3.3 連續(xù)變量離群值識(shí)別與處理 .130
6.3.4 分類變量概化處理 .132
6.3.5 缺失值處理 .133
6.3.6 連續(xù)變量分布形態(tài)轉(zhuǎn)換 .136
6.3.7 連續(xù)變量中心標(biāo)準(zhǔn)化或歸一化 .137
6.3.8 變量降維 .138
6.3.9 WoE轉(zhuǎn)換 139
第7章 數(shù)據(jù)降維方法141
7.1 矩陣分析法 141
7.2 連續(xù)變量降維 146
7.2.1 方法概述 .147
7.2.2 變量篩選 .147
7.2.3 維度規(guī)約 .147
7.3 主成分分析法 148
7.3.1 主成分分析簡(jiǎn)介 .148
7.3.2 主成分分析原理 .149
7.3.3 主成分分析的運(yùn)用 .152
7.3.4 實(shí)戰(zhàn)案例:在Python中實(shí)現(xiàn)主成分分析 .153
7.3.5 基于主成分的冗余變量篩選 .156
7.4 因子分析法 157
7.4.1 因子分析模型 .158
7.4.2 因子分析算法 .159
7.4.3 實(shí)戰(zhàn)案例:在Python中實(shí)現(xiàn)因子分析 .162
第8章 使用統(tǒng)計(jì)學(xué)方法進(jìn)行檢驗(yàn)和預(yù)測(cè).167
8.1 假設(shè)檢驗(yàn) 167
8.1.1 假設(shè)檢驗(yàn)的基本原理 .168
8.1.2 假設(shè)檢驗(yàn)中的兩類錯(cuò)誤 .169
8.1.3 假設(shè)檢驗(yàn)與區(qū)間估計(jì)的聯(lián)系 .170
8.1.4 假設(shè)檢驗(yàn)的基本步驟 .171
8.1.5 配對(duì)樣本t檢驗(yàn)172
8.2 方差分析 172
8.2.1 單因素方差分析 .173
8.2.2 多因素方差分析 .178
8.3 列聯(lián)表分析與卡方檢驗(yàn) 181
8.3.1 列聯(lián)表 .1818.3.2 卡方檢驗(yàn) .183
8.4 線性回歸 185
8.4.1 簡(jiǎn)單線性回歸 .185
8.4.2 多元線性回歸 .187
8.4.3 多元線性回歸的變量篩選 .196
8.4.4 線性回歸模型的經(jīng)典假設(shè) .199
8.4.5 建立線性回歸模型的基本步驟 .208
8.5 邏輯回歸 209
8.5.1 邏輯回歸的相關(guān)關(guān)系分析 211
8.5.2 邏輯回歸模型及實(shí)現(xiàn) 213
8.5.3 邏輯回歸的極大似然估計(jì) 223
8.5.4 模型評(píng)估 .225
8.5.5 因果推斷模型 .233
第9章 用戶分群方法.239
9.1 用戶細(xì)分與聚類 239
9.1.1 用戶細(xì)分的重要意義 .23
99.1.2 用戶細(xì)分的不同商業(yè)主題 .240
9.2 聚類分析的基本概念 247
9.3 聚類模型的評(píng)估 248
9.3.1 輪廓系數(shù) .248
9.3.2 平方根標(biāo)準(zhǔn)誤差 249
9.3.3 R2 2499.3.4 ARI 250
9.4 層次聚類 250
9.4.1 層次聚類算法描述 .251
9.4.2 層次聚類分群數(shù)量的確定 .254
9.4.3 層次聚類應(yīng)用簡(jiǎn)單示例 .255
9.4.4 層次聚類的特點(diǎn) .260
9.5 K-means聚類算法 260
9.5.1 K-means聚類算法描述 260
9.5.2 K-means聚類算法的應(yīng)用:用戶細(xì)分 261
9.6 聚類事后分析:決策樹應(yīng)用 269
9.6.1 決策樹的基本概念 .269
9.6.2 利用決策樹解讀用戶分群后的特征 .271
第3篇 管理篇
第10章 企業(yè)數(shù)據(jù)管理方法論.274
10.1 基本概念和關(guān)鍵術(shù)語(yǔ)解析 274
10.1.1 背景與目標(biāo) .274
10.1.2 數(shù)據(jù)管理主要模塊及其關(guān)系 .276
10.1.3 數(shù)據(jù)生存周期管理 .279
10.2 輸入和資源需求 282
10.2.1 業(yè)務(wù)戰(zhàn)略 .282
10.2.2 組織文化 .283
10.2.3 架構(gòu)設(shè)計(jì)和IT系統(tǒng)現(xiàn)狀說明 .283
10.3 數(shù)據(jù)治理流程 283
10.3.1 “盤”:盤清現(xiàn)狀 .284
10.3.2 “規(guī)”:制定規(guī)范 .289
10.3.3 “治”:?jiǎn)栴}整治 .291
10.3.4 “用”:數(shù)據(jù)應(yīng)用 .292
10.4 輸出和績(jī)效評(píng)估 292
10.4.1 數(shù)據(jù)管理的輸出 .292
10.4.2 數(shù)據(jù)管理的績(jī)效評(píng)估 .293
10.5 數(shù)據(jù)管理的成熟度模型 294
10.5.1 能力域和能力項(xiàng) .294
10.5.2 成熟度評(píng)估等級(jí) .298
10.6 數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估與數(shù)據(jù)資源入表 301
10.6.1 數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估方法 .301
10.6.2 數(shù)據(jù)資源入表 .305
10.7 本章小結(jié) 307
第11.章 企業(yè)數(shù)據(jù)安全管理方法論.308
11.1 數(shù)據(jù)安全導(dǎo)論 308
11.1.1 數(shù)據(jù)安全需求 .308
11.1.2 數(shù)據(jù)安全定義 .312
11.1.3 數(shù)據(jù)安全管理目標(biāo)和原則 .312
11.2 輸入和資源需求 314
11.2.1 業(yè)務(wù)需求 .314
11.2.2 監(jiān)管要求 .314
11.3 數(shù)據(jù)生存周期安全管理流程 314
11.3.1 數(shù)據(jù)安全需求分析 .314
11.3.2 制定數(shù)據(jù)安全制度和細(xì)則 .315
11.3.3 數(shù)據(jù)的分類分級(jí) .316
11.3.4 數(shù)據(jù)安全實(shí)施控制 .319
11.4 輸出和績(jī)效評(píng)估 321
11.4.1 數(shù)據(jù)安全的輸出 .321
11.4.2 數(shù)據(jù)安全的績(jī)效評(píng)估 322
11.5 數(shù)據(jù)安全能力成熟度模型 323
11.6 本章小結(jié) 327