書單推薦 新書推薦 |
R數(shù)據(jù)科學(xué)(第2版) ![]()
本書是數(shù)據(jù)科學(xué)與數(shù)據(jù)分析領(lǐng)域經(jīng)典作品,由R社區(qū)領(lǐng)軍人物Hadley Wickham領(lǐng)銜打造。第2版全面更新,結(jié)合tidyverse及RStudio,通過(guò)實(shí)戰(zhàn)示例和練習(xí),幫助讀者快速掌握數(shù)據(jù)處理、可視化與編程等核心數(shù)據(jù)科學(xué)技能。全書分為六大部分——全流程、可視化、變換、導(dǎo)入、編程與交流——完整覆蓋數(shù)據(jù)科學(xué)全流程。
本書適合統(tǒng)計(jì)、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)專業(yè)的學(xué)生,以及數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家及其他有數(shù)據(jù)處理與可視化需求的讀者。
1.【權(quán)威】一作為R社區(qū)領(lǐng)軍Hadley Wickham,國(guó)內(nèi)知名R專家張敬信領(lǐng)銜翻譯
2.【經(jīng)典】數(shù)據(jù)分析與數(shù)據(jù)科學(xué)領(lǐng)域經(jīng)典作品,Amazon 4.7星評(píng),豆瓣評(píng)分9.4
3.【升級(jí)】新版根據(jù)tidyverse全面更新,tidyverse是R數(shù)據(jù)科學(xué)的現(xiàn)代標(biāo)準(zhǔn)
4.【實(shí)用】覆蓋80%數(shù)據(jù)科學(xué)工作場(chǎng)景,提供高質(zhì)量代碼示例,開(kāi)箱即用
5.【簡(jiǎn)單】自學(xué)寶典,圖示豐富,打通數(shù)據(jù)科學(xué)全流程,學(xué)習(xí)輕松10倍
哈德利·威克姆(Hadley Wickham) RStudio首席科學(xué)家,統(tǒng)計(jì)學(xué)家,斯坦福大學(xué)、奧克蘭大學(xué)、萊斯大學(xué)兼職統(tǒng)計(jì)學(xué)教授。已被下載數(shù)百萬(wàn)次的ggplot2等多款知名R包的開(kāi)發(fā)者,一直致力于讓普羅大眾更容易上手?jǐn)?shù)據(jù)分析,被R社區(qū)譽(yù)為“改變了R的人”。另著有《R包開(kāi)發(fā)》等書。 米內(nèi)·切廷卡亞?倫德?tīng)枺∕ine ?etinkaya-Rundel) 杜克大學(xué)統(tǒng)計(jì)科學(xué)系實(shí)踐教授、R 數(shù)據(jù)科學(xué)教育專家。她專注于統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)教育,參與編寫多部開(kāi)源教材,如《OpenIntro Statistics》,致力于讓學(xué)習(xí)統(tǒng)計(jì)和 R 語(yǔ)言變得輕松有趣。 加勒特·格羅勒芒德(Garrett Grolemund) RStudio 顧問(wèn)、R 語(yǔ)言教育專家。Garrett 擅長(zhǎng)將復(fù)雜的數(shù)據(jù)科學(xué)概念以直觀、有趣的方式呈現(xiàn),是全球數(shù)據(jù)科學(xué)學(xué)習(xí)者熟悉的 R 教師和教材作者。
目錄
譯者序 xix
引言 xxi
第一部分 全流程
第1章 數(shù)據(jù)可視化 3
1.1 引言 3
1.2 起步階段 4
1.2.1 penguins數(shù)據(jù)框 4
1.2.2 終極目標(biāo) 6
1.2.3 創(chuàng)建ggplot圖形 6
1.2.4 添加美學(xué)和圖層 9
1.2.5 練習(xí)題 13
1.3 ggplot2調(diào)用 15
1.4 可視化分布 15
1.4.1 分類變量 15
1.4.2 數(shù)值變量 17
1.4.3 練習(xí)題 18
1.5 可視化關(guān)系 19
1.5.1 數(shù)值變量與分類變量 19
1.5.2 兩個(gè)分類變量 21
1.5.3 兩個(gè)數(shù)值變量 23
1.5.4 三個(gè)及三個(gè)以上變量 23
1.5.5 練習(xí)題 24
1.6 保存圖形 25
1.7 常見(jiàn)問(wèn)題 26
1.8 小結(jié) 26
第2章 工作流:基礎(chǔ) 27
2.1 編程基礎(chǔ) 27
2.2 注釋 28
2.3 命名對(duì)象 29
2.4 調(diào)用函數(shù) 29
2.5 練習(xí)題 30
2.6 小結(jié) 31
第3章 數(shù)據(jù)變換 32
3.1 引言 32
3.1.1 準(zhǔn)備工作 32
3.1.2 nycflights13 33
3.1.3 dplyr基礎(chǔ) 34
3.2 操作行 34
3.2.1 filter() 35
3.2.2 常見(jiàn)錯(cuò)誤 36
3.2.3 arrange() 37
3.2.4 distinct() 37
3.2.5 練習(xí)題 39
3.3 操作列 39
3.3.1 mutate() 39
3.3.2 select() 41
3.3.3 rename() 42
3.3.4 relocate() 42
3.3.5 練習(xí)題 43
3.4 管道 43
3.5 分組 45
3.5.1 group_by() 45
3.5.2 summarize() 46
3.5.3 slice_*函數(shù) 47
3.5.4 根據(jù)多個(gè)變量分組 48
3.5.5 解除分組 48
3.5.6 .by參數(shù) 49
3.5.7 練習(xí)題 50
3.6 案例研究:聚合與樣本量 51
3.7 小結(jié) 53
第4章 工作流:代碼風(fēng)格 54
4.1 命名 55
4.2 空格 55
4.3 管道 56
4.4 ggplot2 57
4.5 分節(jié)注釋 58
4.6 練習(xí)題 58
4.7 小結(jié) 59
第5章 數(shù)據(jù)整理 60
5.1 引言 60
5.2 整潔數(shù)據(jù) 61
5.3 轉(zhuǎn)換為長(zhǎng)數(shù)據(jù) 63
5.3.1 列名中包含變量值 64
5.3.2 轉(zhuǎn)換為長(zhǎng)數(shù)據(jù)是如何實(shí)現(xiàn)的 67
5.3.3 列名中包含多個(gè)變量值 68
5.3.4 列名中包含變量值和變量名 70
5.4 轉(zhuǎn)換為寬數(shù)據(jù) 71
5.5 小結(jié) 75
第6章 工作流:腳本和項(xiàng)目 76
6.1 腳本 76
6.1.1 運(yùn)行代碼 77
6.1.2 RStudio診斷 78
6.1.3 保存與命名 78
6.2 項(xiàng)目 79
6.2.1 分析的真實(shí)源頭是什么 80
6.2.2 如何存放分析項(xiàng)目 81
6.2.3 RStudio項(xiàng)目 81
6.2.4 相對(duì)路徑與絕對(duì)路徑 83
6.3 練習(xí)題 83
6.4 小結(jié) 84
第7章 數(shù)據(jù)導(dǎo)入 85
7.1 引言 85
7.2 從文件中讀取數(shù)據(jù) 85
7.2.1 實(shí)用建議 86
7.2.2 其他參數(shù) 88
7.2.3 其他文件類型 90
7.2.4 練習(xí)題 90
7.3 控制列類型 91
7.3.1 猜測(cè)類型 91
7.3.2 缺失值、列類型與問(wèn)題 92
7.3.3 列類型 93
7.4 從多個(gè)文件中讀取數(shù)據(jù) 94
7.5 寫入文件 95
7.6 數(shù)據(jù)錄入 96
7.7 小結(jié) 97
第8章 工作流:獲取幫助 98
8.1 Google是良師益友 98
8.2 創(chuàng)建最小可復(fù)現(xiàn)示例 98
8.3 投資自己 100
8.4 小結(jié) 100
第二部分 可視化
第9章 圖層 103
9.1 引言 103
9.2 美學(xué)映射 104
9.3 幾何對(duì)象 107
9.4 分面 113
9.5 統(tǒng)計(jì)變換 115
9.6 位置調(diào)整 119
9.7 坐標(biāo)系 124
9.8 分層圖形語(yǔ)法 125
9.9 小結(jié) 126
第10章 探索性數(shù)據(jù)分析 127
10.1 引言 127
10.2 問(wèn)題 128
10.3 變動(dòng) 128
10.3.1 正常的取值 129
10.3.2 異常的取值 130
10.3.3 練習(xí)題 132
10.4 異常的取值 133
10.5 協(xié)變 135
10.5.1 分類變量和數(shù)值變量 135
10.5.2 兩個(gè)分類變量 139
10.5.3 兩個(gè)數(shù)值變量 141
10.6 模式和模型 144
10.7 小結(jié) 146
第11章 呈現(xiàn) 147
11.1 引言 147
11.2 標(biāo)簽 148
11.3 標(biāo)注 150
11.4 標(biāo)度 155
11.4.1 默認(rèn)標(biāo)度 155
11.4.2 坐標(biāo)軸刻度和圖例標(biāo)簽 155
11.4.3 圖例布局 158
11.4.4 替換標(biāo)度 160
11.4.5 縮放 165
11.4.6 練習(xí)題 167
11.5 主題 168
11.6 布局 171
11.7 小結(jié) 174
第三部分 變換
第12章 邏輯向量 177
12.1 引言 177
12.2 比較 178
12.2.1 浮點(diǎn)數(shù)比較 179
12.2.2 缺失值 179
12.2.3 is.na() 180
12.2.4 練習(xí)題 181
12.3 布爾運(yùn)算 181
12.3.1 缺失值 182
12.3.2 運(yùn)算符優(yōu)先級(jí) 182
12.3.3 %in% 183
12.3.4 練習(xí)題 184
12.4 匯總函數(shù) 184
12.4.1 邏輯匯總 184
12.4.2 邏輯向量的數(shù)值匯總 185
12.4.3 邏輯子集 185
12.4.4 練習(xí)題 186
12.5 條件變換 187
12.5.1 if_else() 187
12.5.2 case_when() 188
12.5.3 兼容類型 189
12.5.4 練習(xí)題 190
12.6 小結(jié) 190
第13章 數(shù)值 191
13.1 引言 191
13.2 生成數(shù)值 191
13.3 計(jì)數(shù) 192
13.4 數(shù)值變換 194
13.4.1 算術(shù)和循環(huán)補(bǔ)齊規(guī)則 194
13.4.2 最小值和最大值 196
13.4.3 模運(yùn)算 196
13.4.4 對(duì)數(shù)函數(shù) 198
13.4.5 四舍五入 198
13.4.6 將數(shù)值切割成范圍數(shù)據(jù) 199
13.4.7 累積與滾動(dòng)聚合 200
13.4.8 練習(xí)題 200
13.5 一般變換 200
13.5.1 排名 200
13.5.2 偏移 201
13.5.3 連續(xù)分組標(biāo)識(shí) 202
13.5.4 練習(xí)題 203
13.6 數(shù)值匯總函數(shù) 204
13.6.1 中心 204
13.6.2 最小值、最大值和分位數(shù) 205
13.6.3 分散度 206
13.6.4 分布 206
13.6.5 位置 208
13.6.6 使用mutate() 209
13.6.7 練習(xí)題 209
13.7 小結(jié) 209
第14章 字符串 210
14.1 引言 210
14.2 創(chuàng)建字符串 211
14.2.1 轉(zhuǎn)義 211
14.2.2 原始字符串 212
14.2.3 其他特殊字符 212
14.2.4 練習(xí)題 213
14.3 創(chuàng)建多個(gè)字符串 213
14.3.1 str_c() 213
14.3.2 str_glue() 214
14.3.3 str_flatten() 214
14.3.4 練習(xí)題 215
14.4 從字符串中提取數(shù)據(jù) 215
14.4.1 拆分為多行 216
14.4.2 拆分為多列 217
14.4.3 診斷變寬問(wèn)題 218
14.5 字母 220
14.5.1 長(zhǎng)度 220
14.5.2 子集 221
14.5.3 練習(xí)題 222
14.6 非英語(yǔ)文本 222
14.6.1 編碼 222
14.6.2 字母變體 224
14.6.3 依賴區(qū)域設(shè)置的函數(shù) 224
14.7 小結(jié) 225
第15章 正則表達(dá)式 226
15.1 引言 226
15.2 模式基礎(chǔ) 227
15.3 關(guān)鍵函數(shù) 229
15.3.1 檢測(cè)匹配 229
15.3.2 計(jì)算匹配次數(shù) 230
15.3.3 修改匹配項(xiàng) 231
15.3.4 提取變量 232
15.3.5 練習(xí)題 233
15.4 模式細(xì)節(jié) 233
15.4.1 轉(zhuǎn)義 233
15.4.2 錨點(diǎn) 234
15.4.3 字符類 235
15.4.4 量詞 236
15.4.5 運(yùn)算符優(yōu)先級(jí)和括號(hào) 237
15.4.6 分組和捕獲 237
15.4.7 練習(xí)題 239
15.5 模式控制 239
15.5.1 正則表達(dá)式標(biāo)志 239
15.5.2 固定匹配 241
15.6 實(shí)踐 241
15.6.1 檢查當(dāng)前工作 241
15.6.2 布爾運(yùn)算 242
15.6.3 使用代碼創(chuàng)建模式 244
15.6.4 練習(xí)題 245
15.7 正則表達(dá)式的其他使用場(chǎng)景 245
15.7.1 tidyverse 245
15.7.2 基礎(chǔ)R 246
15.8 小結(jié) 246
第16章 因子 247
16.1 引言 247
16.2 因子基礎(chǔ) 247
16.3 綜合社會(huì)調(diào)查 249
16.4 修改因子順序 250
16.5 修改因子水平 254
16.6 有序因子 257
16.7 小結(jié) 257
第17章 日期和時(shí)間 258
17.1 引言 258
17.2 創(chuàng)建日期/時(shí)間 259
17.2.1 導(dǎo)入過(guò)程 259
17.2.2 從字符串中提取 261
17.2.3 從多列組件創(chuàng)建 262
17.2.4 從其他類型轉(zhuǎn)換 264
17.2.5 練習(xí)題 264
17.3 日期時(shí)間組件 265
17.3.1 獲取組件 265
17.3.2 取整 268
17.3.3 修改組件 270
17.3.4 練習(xí)題 271
17.4 時(shí)間跨度 271
17.4.1 持續(xù)時(shí)間 271
17.4.2 時(shí)段 273
17.4.3 區(qū)間 274
17.4.4 練習(xí)題 275
17.5 時(shí)區(qū) 275
17.6 小結(jié) 277
第18章 缺失值 278
18.1 引言 278
18.2 顯式缺失值 278
18.2.1 末次觀測(cè)值前推 278
18.2.2 固定值 279
18.2.3 NaN 279
18.3 隱式缺失值 280
18.3.1 長(zhǎng)寬數(shù)據(jù)轉(zhuǎn)換 280
18.3.2 補(bǔ)全 281
18.3.3 連接 282
18.3.4 練習(xí)題 282
18.4 因子和空組 282
18.5 小結(jié) 285
第19章 連接 286
19.1 引言 286
19.2 鍵 286
19.2.1 主鍵和外鍵 287
19.2.2 檢查主鍵 289
19.2.3 代理鍵 289
19.2.4 練習(xí)題 290
19.3 基本連接 291
19.3.1 修改連接 291
19.3.2 指定連接鍵 293
19.3.3 過(guò)濾連接 294
19.3.4 練習(xí)題 296
19.4 連接是如何工作的 296
19.4.1 行匹配 299
19.4.2 過(guò)濾連接 300
19.5 非等值連接 301
19.5.1 交叉連接 302
19.5.2 不等連接 303
19.5.3 滾動(dòng)連接 304
19.5.4 重疊連接 305
19.5.5 練習(xí)題 306
19.6 小結(jié) 307
第四部分 導(dǎo)入
第20章 電子表格 311
20.1 引言 311
20.2 Excel 311
20.2.1 準(zhǔn)備工作 311
20.2.2 入門 312
20.2.3 讀取Excel 312
20.2.4 讀取工作表 315
20.2.5 讀取工作表的一部分 317
20.2.6 數(shù)據(jù)類型 318
20.2.7 寫入Excel 319
20.2.8 格式化輸出 320
20.2.9 練習(xí)題 321
20.3 Google表格 323
20.3.1 準(zhǔn)備工作 323
20.3.2 入門 323
20.3.3 讀取Google表格 324
20.3.4 寫入Google表格 326
20.3.5 身份驗(yàn)證 326
20.3.6 練習(xí)題 326
20.4 小結(jié) 327
第21章 數(shù)據(jù)庫(kù) 328
21.1 引言 328
21.2 數(shù)據(jù)庫(kù)基礎(chǔ) 329
21.3 連接到數(shù)據(jù)庫(kù) 329
21.3.1 本書的選擇 330
21.3.2 加載一些數(shù)據(jù) 330
21.3.3 DBI基礎(chǔ) 331
21.4 dbplyr基礎(chǔ) 332
21.5 SQL 333
21.5.1 SQL基礎(chǔ) 334
21.5.2 SELECT 335
21.5.3 FROM 336
21.5.4 GROUP BY 336
21.5.5 WHERE 337
21.5.6 ORDER BY 338
21.5.7 子查詢 339
21.5.8 連接 339
21.5.9 其他動(dòng)詞 340
21.5.10 練習(xí)題 340
21.6 函數(shù)翻譯 341
21.7 小結(jié) 343
第22章 arrow 344
22.1 引言 344
22.2 獲取數(shù)據(jù) 345
22.3 查看數(shù)據(jù) 345
22.4 Parquet格式 346
22.4.1 Parquet的優(yōu)勢(shì) 347
22.4.2 分區(qū) 347
22.4.3 重寫西雅圖公共圖書館數(shù)據(jù) 347
22.5 使用dplyr和arrow 348
22.5.1 性能 349
22.5.2 其他優(yōu)勢(shì) 350
22.6 小結(jié) 350
第23章 層級(jí)數(shù)據(jù) 351
23.1 引言 351
23.2 列表 351
23.2.1 層級(jí)結(jié)構(gòu) 352
23.2.2 列表列 354
23.3 展開(kāi) 356
23.3.1 unnest_wider() 356
23.3.2 unnest_longer() 357
23.3.3 不一致的類型 357
23.3.4 其他函數(shù) 358
23.3.5 練習(xí)題 358
23.4 案例研究 359
23.4.1 非常寬的數(shù)據(jù) 359
23.4.2 關(guān)系數(shù)據(jù) 361
23.4.3 深層嵌套的數(shù)據(jù) 363
23.4.4 練習(xí)題 366
23.5 JSON 367
23.5.1 數(shù)據(jù)類型 367
23.5.2 jsonlite 367
23.5.3 開(kāi)始矩形化過(guò)程 368
23.5.4 練習(xí)題 369
23.6 小結(jié) 370
第24章 網(wǎng)頁(yè)爬取 371
24.1 引言 371
24.2 網(wǎng)頁(yè)爬取的倫理和法律問(wèn)題 372
24.2.1 服務(wù)條款 372
24.2.2 個(gè)人可識(shí)別信息 372
24.2.3 版權(quán) 373
24.3 HTML基礎(chǔ)知識(shí) 373
24.3.1 元素 374
24.3.2 屬性 374
24.4 提取數(shù)據(jù) 374
24.4.1 定位元素 375
24.4.2 嵌套選擇 376
24.4.3 文本和屬性 377
24.4.4 表格 378
24.5 寫出正確的選擇器 378
24.6 整合運(yùn)用 379
24.6.1 星球大戰(zhàn) 379
24.6.2 IMDb最佳電影 381
24.7 動(dòng)態(tài)網(wǎng)頁(yè) 383
24.8 小結(jié) 384
第五部分 編程
第25章 函數(shù) 387
25.1 引言 387
25.2 向量函數(shù) 388
25.2.1 編寫函數(shù) 388
25.2.2 改進(jìn)函數(shù) 390
25.2.3 修改函數(shù) 390
25.2.4 匯總函數(shù) 391
25.2.5 練習(xí)題 392
25.3 數(shù)據(jù)框函數(shù) 393
25.3.1 間接引用與整潔求值 393
25.3.2 何時(shí)使用間接引用 394
25.3.3 常用范例 395
25.3.4 數(shù)據(jù)屏蔽與整潔選擇 397
25.3.5 練習(xí)題 398
25.4 圖形函數(shù) 399
25.4.1 更多變量 400
25.4.2 結(jié)合其他tidyverse函數(shù) 402
25.4.3 添加標(biāo)簽 403
25.4.4 練習(xí)題 404
25.5 編程風(fēng)格 404
25.6 小結(jié) 406
第26章 迭代 407
26.1 引言 407
26.2 修改多列 408
26.2.1 使用.cols選擇列 408
26.2.2 調(diào)用單個(gè)函數(shù) 409
26.2.3 調(diào)用多個(gè)函數(shù) 410
26.2.4 列名 411
26.2.5 篩選行 412
26.2.6 在函數(shù)中使用across() 413
26.2.7 across()與pivot_longer() 414
26.2.8 練習(xí)題 416
26.3 批量讀取文件 416
26.3.1 列出目錄中的文件 417
26.3.2 結(jié)果列表 417
26.3.3 purrr::map()與list_rbind() 418
26.3.4 路徑中的數(shù)據(jù) 419
26.3.5 保存結(jié)果 421
26.3.6 多次簡(jiǎn)單迭代 421
26.3.7 異質(zhì)數(shù)據(jù) 422
26.3.8 處理失敗情況 423
26.4 批量保存結(jié)果 424
26.4.1 寫入數(shù)據(jù)庫(kù) 424
26.4.2 寫入多個(gè)CSV文件 426
26.4.3 保存圖形 427
26.5 小結(jié) 428
第27章 基礎(chǔ)R應(yīng)用指南 429
27.1 引言 429
27.2 用[取子集 430
27.2.1 對(duì)向量取子集 430
27.2.2 對(duì)數(shù)據(jù)框取子集 431
27.2.3 dplyr中的等同操作 432
27.2.4 練習(xí)題 433
27.3 用$和[[取內(nèi)容 433
27.3.1 對(duì)于data.frame 433
27.3.2 對(duì)于tibble 434
27.3.3 對(duì)于列表 435
27.3.4 練習(xí)題 436
27.4 apply函數(shù)族 436
27.5 for循環(huán) 438
27.6 基礎(chǔ)繪圖 439
27.7 小結(jié) 440
第六部分 交流
第28章 Quarto 443
28.1 引言 443
28.2 Quarto基礎(chǔ) 444
28.3 可視化編輯模式 447
28.4 源碼編輯模式 449
28.5 代碼塊 450
28.5.1 代碼塊標(biāo)簽 451
28.5.2 代碼塊選項(xiàng) 452
28.5.3 全局選項(xiàng) 453
28.5.4 行內(nèi)代碼 453
28.5.5 練習(xí)題 454
28.6 圖像 454
28.6.1 圖像大小調(diào)整 454
28.6.2 其他重要選項(xiàng) 456
28.6.3 練習(xí)題 456
28.7 表格 457
28.8 緩存 458
28.9 錯(cuò)誤調(diào)試 459
28.10 YAML頭 460
28.10.1 自包含文檔 460
28.10.2 參數(shù) 460
28.10.3 引用和參考文獻(xiàn) 461
28.11 工作流 462
28.12 小結(jié) 463
第29章 Quarto格式 465
29.1 引言 465
29.2 輸出選項(xiàng) 465
29.3 文檔 466
29.4 演示文稿 467
29.5 交互性 467
29.5.1 htmlwidgets 467
29.5.2 Shiny 468
29.6 網(wǎng)站和圖書 469
29.7 其他格式 470
29.8 小結(jié) 471
你還可能感興趣
我要評(píng)論
|







