數(shù)據(jù)挖掘原理與應(yīng)用 第2版 葛東旭 數(shù)據(jù)挖掘
定 價(jià):75 元
當(dāng)前圖書(shū)已被 2 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:葛東旭
- 出版時(shí)間:2025/9/1
- ISBN:9787111788409
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)以數(shù)據(jù)挖掘項(xiàng)目的完整開(kāi)發(fā)流程為主線,系統(tǒng)地介紹了數(shù)據(jù)挖掘生命周期的各個(gè)環(huán)節(jié),深入剖析了其中涉及的核心概念、關(guān)鍵技術(shù)和方法論體系。針對(duì)數(shù)據(jù)挖掘的基礎(chǔ)算法部分,本書(shū)通過(guò)理論闡述、實(shí)例演示和深入討論相結(jié)合的方式,全面展現(xiàn)了算法的本質(zhì)內(nèi)涵,幫助讀者實(shí)現(xiàn)從認(rèn)知到掌握的進(jìn)階學(xué)習(xí)! ≡趦(nèi)容架構(gòu)上,本書(shū)完整覆蓋了數(shù)據(jù)挖掘的理論體系、算法實(shí)現(xiàn)和實(shí)際應(yīng)用三大維度,具體包括數(shù)據(jù)采集、預(yù)處理、分類分析、聚類分析、關(guān)聯(lián)分析等關(guān)鍵環(huán)節(jié),以及數(shù)據(jù)挖掘系統(tǒng)的工程化應(yīng)用。通過(guò)典型應(yīng)用場(chǎng)景的引入,本書(shū)創(chuàng)新性地實(shí)現(xiàn)了理論知識(shí)與工程實(shí)踐的有機(jī)融合,既保證了專業(yè)深度,又突出了實(shí)踐指導(dǎo)價(jià)值! ”緯(shū)既適合作為普通高校計(jì)算機(jī)科學(xué)與技術(shù)、信息管理、大數(shù)據(jù)等相關(guān)專業(yè)的核心課教材,也可為企事業(yè)單位的數(shù)據(jù)分析人員和管理者提供專業(yè)的技術(shù)參考! ”緯(shū)配有電子課件,及與書(shū)中例題、作業(yè)題配套的數(shù)據(jù)素材,習(xí)題答案詳解,歡迎選用本書(shū)作教材的教師發(fā)郵件到j(luò)inacmp@163.com索取,或登錄www.cmpedu.com注冊(cè)后下載。
本書(shū)遵循教指委相關(guān)指導(dǎo)文件和高等院校學(xué)生學(xué)習(xí)規(guī)律編寫(xiě)而成。踐行四新理念,融入思政元素,注重理論與實(shí)踐相結(jié)合。
隨著現(xiàn)代信息技術(shù)的迅猛發(fā)展和現(xiàn)代管理理論的持續(xù)創(chuàng)新,人類社會(huì)對(duì)信息資源的開(kāi)發(fā)利用正經(jīng)歷著前所未有的變革。信息已成為知識(shí)的基石,數(shù)據(jù)成為連接萬(wàn)物的紐帶,這種轉(zhuǎn)變深刻影響著社會(huì)經(jīng)濟(jì)、科技創(chuàng)新、生產(chǎn)管理、文化傳播和生活方式等各個(gè)領(lǐng)域。數(shù)據(jù)采集與應(yīng)用技術(shù)的進(jìn)步,正推動(dòng)著工業(yè)生產(chǎn)向標(biāo)準(zhǔn)化和精準(zhǔn)化轉(zhuǎn)型,促進(jìn)城市管理向智慧化升級(jí),引領(lǐng)社會(huì)服務(wù)向人性化和精細(xì)化發(fā)展。數(shù)據(jù)資源化進(jìn)程不僅催生了全新的數(shù)據(jù)生產(chǎn)與消費(fèi)產(chǎn)業(yè),更使數(shù)據(jù)成為現(xiàn)代社會(huì)運(yùn)轉(zhuǎn)不可或缺的核心要素。人類文明在經(jīng)歷了農(nóng)業(yè)社會(huì)、工業(yè)社會(huì)和信息社會(huì)的演進(jìn)后,正邁入一個(gè)嶄新的歷史階段—數(shù)據(jù)社會(huì)! (shù)據(jù)的核心價(jià)值在于其全生命周期的開(kāi)發(fā)利用,包括采集存儲(chǔ)、組織積累、處理分析和挖掘應(yīng)用等關(guān)鍵環(huán)節(jié)。在數(shù)據(jù)爆炸式增長(zhǎng)與社會(huì)需求的雙重驅(qū)動(dòng)下,借助互聯(lián)網(wǎng)和信息傳播技術(shù)的突破性發(fā)展,現(xiàn)代數(shù)據(jù)呈現(xiàn)出顯著的“4V”特征:數(shù)據(jù)體量龐大(Volume)、數(shù)據(jù)類型多樣(Variety)、處理速度要求高(Velocity)以及價(jià)值密度降低(Value)。這種變革使人們無(wú)論主動(dòng)或被動(dòng),都已置身于大數(shù)據(jù)時(shí)代的洪流之中! 〈髷(shù)據(jù)時(shí)代的來(lái)臨孕育了一門新興學(xué)科—數(shù)據(jù)科學(xué)。該學(xué)科致力于研究數(shù)據(jù)處理、分析和應(yīng)用的技術(shù)與方法,旨在充分挖掘數(shù)據(jù)潛在價(jià)值,推動(dòng)人類社會(huì)進(jìn)步。學(xué)科發(fā)展最直觀地體現(xiàn)在科技創(chuàng)新和教育改革領(lǐng)域。為滿足社會(huì)對(duì)數(shù)據(jù)科學(xué)技術(shù)的迫切需求,近年來(lái)高等院校紛紛設(shè)立數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、智能科學(xué)與技術(shù)、人工智能、機(jī)器人工程以及大數(shù)據(jù)管理與應(yīng)用等交叉融合的新興專業(yè),在數(shù)據(jù)科學(xué)研究和人才培養(yǎng)方面取得了重要突破! ∶鎸(duì)海量數(shù)據(jù)資源及其對(duì)社會(huì)發(fā)展的深遠(yuǎn)影響,開(kāi)發(fā)高效的數(shù)據(jù)價(jià)值挖掘工具和方法成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘作為一門融合統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)和人工智能的交叉學(xué)科應(yīng)運(yùn)而生。雖然興起于20世紀(jì)末,但憑借其強(qiáng)大的生命力和顯著的應(yīng)用成效,這項(xiàng)智能分析技術(shù)已展現(xiàn)出廣闊的發(fā)展前景。 作為一門綜合性新興學(xué)科,數(shù)據(jù)挖掘技術(shù)應(yīng)用范圍廣泛,正快速滲透到各個(gè)領(lǐng)域。數(shù)據(jù)分析師、科研人員和工程技術(shù)專家都迫切需要掌握這項(xiàng)關(guān)鍵技術(shù)。在高等教育領(lǐng)域,數(shù)據(jù)挖掘已成為工科、理科乃至金融、醫(yī)學(xué)等專業(yè)的重要課程,體現(xiàn)了它在多學(xué)科交叉中的核心地位! (shù)據(jù)挖掘技術(shù)的根本價(jià)值在于:通過(guò)系統(tǒng)的技術(shù)方法和管理流程,在工業(yè)、科研和商業(yè)等領(lǐng)域,從海量數(shù)據(jù)中發(fā)掘潛在的有價(jià)值的知識(shí),最終解決實(shí)際生產(chǎn)、經(jīng)營(yíng)和服務(wù)中的各類問(wèn)題。為此,本書(shū)特別強(qiáng)調(diào)對(duì)數(shù)據(jù)挖掘全流程各個(gè)環(huán)節(jié)的深入理解和掌握,通過(guò)詳盡的闡述,讓讀者認(rèn)識(shí)到數(shù)據(jù)挖掘不僅是算法應(yīng)用和模型構(gòu)建,更是一個(gè)包含問(wèn)題分析、數(shù)據(jù)理解、數(shù)據(jù)處理、算法實(shí)現(xiàn),以及最重要的實(shí)際問(wèn)題解決等完整環(huán)節(jié)的系統(tǒng)工程。只有全面把握這些關(guān)鍵環(huán)節(jié),才能真正實(shí)現(xiàn)通過(guò)數(shù)據(jù)挖掘提升管理效能和服務(wù)質(zhì)量的目標(biāo)! ”緯(shū)系統(tǒng)闡述了數(shù)據(jù)挖掘的基本原理、技術(shù)流程和應(yīng)用實(shí)踐,整合了信息科學(xué)、計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)的理論方法,詳細(xì)介紹了主流挖掘算法及其實(shí)現(xiàn)。通過(guò)真實(shí)案例解析,幫助讀者深入理解各類數(shù)據(jù)挖掘模型。學(xué)習(xí)本書(shū)需要具備概率統(tǒng)計(jì)、程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)等基礎(chǔ)知識(shí)。本書(shū)既適合作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、信息與計(jì)算科學(xué)、信息管理等專業(yè)的教材,也可供跨學(xué)科研究者參考使用。 本書(shū)共10章,系統(tǒng)地介紹了數(shù)據(jù)挖掘的理論與實(shí)踐。第1章闡述數(shù)據(jù)挖掘的發(fā)展歷程和基本概念;第2章詳細(xì)解析數(shù)據(jù)挖掘的完整流程及各環(huán)節(jié)的任務(wù),幫助讀者建立整體認(rèn)知框架;第3章重點(diǎn)講解數(shù)據(jù)收集、抽樣和清理等預(yù)處理的關(guān)鍵方法;第4章介紹在正式建模前進(jìn)行數(shù)據(jù)初步探索和分析的必要內(nèi)容;第5~8章分別深入講解數(shù)據(jù)挖掘的核心算法,即關(guān)聯(lián)分析、分類預(yù)測(cè)、聚類分析和回歸分析;第9章概述當(dāng)前主流的數(shù)據(jù)挖掘軟件工具;第10章專門介紹易用性強(qiáng)的開(kāi)源數(shù)據(jù)挖掘系統(tǒng)WEKA軟件! 2025年上半年,對(duì)本書(shū)第1版進(jìn)行了全面修訂并推出了第2版。本次修訂主要修正了第1版中的錯(cuò)誤與疏漏,并對(duì)全書(shū)進(jìn)行了規(guī)范化處理。具體包括:第3章重新調(diào)整了內(nèi)容結(jié)構(gòu),新增了特征選擇、數(shù)據(jù)編碼等關(guān)鍵技術(shù)環(huán)節(jié),同時(shí)補(bǔ)充了因子分析方法,優(yōu)化了線性判別分析的介紹;第6章增加了k-近鄰分類算法的詳細(xì)說(shuō)明,以及Boosting和Bagging集成分類器的內(nèi)容;第7章新增了譜聚類算法的原理和應(yīng)用;第8章完善了有序和無(wú)序Logistic回歸的介紹;為保持全書(shū)的一致性,第10章也更新了相關(guān)內(nèi)容。此外,還對(duì)其余部分章節(jié)內(nèi)容進(jìn)行了更新,擴(kuò)充了各章的思考與練習(xí)的題目,并優(yōu)化了參考答案的質(zhì)量! ≡诒緯(shū)的編寫(xiě)過(guò)程中,力求內(nèi)容全面、科學(xué)嚴(yán)謹(jǐn)且通俗易懂,為此參考了大量互聯(lián)網(wǎng)上熱心學(xué)者和愛(ài)好者分享的寶貴資料,同時(shí)也借鑒了諸多相關(guān)專業(yè)書(shū)籍。在此,謹(jǐn)向所有被參考資料的作者致以誠(chéng)摯的謝意! ∮捎诒緯(shū)內(nèi)容涵蓋多學(xué)科領(lǐng)域的專業(yè)知識(shí),加之編者水平和精力有限,書(shū)中難免存在疏漏或不足之處。懇請(qǐng)廣大讀者在使用過(guò)程中不吝賜教,如有任何寶貴意見(jiàn)或建議,歡迎發(fā)送郵件至1184844262@qq.com進(jìn)行交流,定將認(rèn)真對(duì)待并及時(shí)回復(fù)致謝! 「饢|旭
高等院校教師
前言第1章 緒論 11.1 信息爆炸與大數(shù)據(jù) 11.2 什么是數(shù)據(jù)挖掘 51.3 數(shù)據(jù)挖掘的任務(wù) 61.4 數(shù)據(jù)挖掘的應(yīng)用 71.5 數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu) 91.6 數(shù)據(jù)挖掘面臨的挑戰(zhàn) 91.7 數(shù)據(jù)挖掘樣例數(shù)據(jù)和相關(guān)資料 10本章小結(jié) 13思考與練習(xí) 13參考文獻(xiàn) 13第2章 數(shù)據(jù)挖掘的過(guò)程 142.1 數(shù)據(jù)分析能力 142.2 數(shù)據(jù)挖掘的過(guò)程 162.3 三階段過(guò)程模型 172.3.1 數(shù)據(jù)準(zhǔn)備 172.3.2 數(shù)據(jù)挖掘 182.3.3 解釋評(píng)估 192.4 SEMMA方法 192.4.1 SEMMA過(guò)程 192.4.2 數(shù)據(jù)抽樣 202.4.3 數(shù)據(jù)特征的探索、分析和預(yù)處理 202.4.4 問(wèn)題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇 202.4.5 模型研發(fā)與知識(shí)發(fā)現(xiàn) 212.4.6 模型和知識(shí)的綜合解釋和評(píng)價(jià) 212.5 CRISP-DM過(guò)程模型 212.5.1 商業(yè)理解 222.5.2 數(shù)據(jù)理解 222.5.3 數(shù)據(jù)準(zhǔn)備 232.5.4 模型建立 232.5.5 模型評(píng)估 242.5.6 模型發(fā)布 242.6 5A模型 252.7 模型融合 25本章小結(jié) 26思考與練習(xí) 26參考文獻(xiàn) 26第3章 數(shù)據(jù)準(zhǔn)備 283.1 數(shù)據(jù)收集 283.2 數(shù)據(jù)抽樣 293.2.1 抽樣方法 293.2.2 數(shù)據(jù)挖掘的抽樣策略 313.3 數(shù)據(jù)集成 323.3.1 數(shù)據(jù)聯(lián)邦 343.3.2 數(shù)據(jù)倉(cāng)庫(kù) 363.3.3 中間件 383.3.4 數(shù)據(jù)集成應(yīng)用模式 393.4 數(shù)據(jù)清理 393.4.1 數(shù)據(jù)問(wèn)題 393.4.2 清洗方法 403.5 維度歸約 423.5.1 維歸約 433.5.2 特征子集選擇 433.5.3 特征創(chuàng)建 463.6 數(shù)據(jù)變換 473.6.1 離散化和概念分層 473.6.2 數(shù)據(jù)編碼 483.6.3 主成分分析法 503.6.4 因子分析 533.6.5 線性判別分析 56本章小結(jié) 59思考與練習(xí) 59參考文獻(xiàn) 61第4章 數(shù)據(jù)探索 624.1 數(shù)據(jù)探索的作用 624.2 數(shù)據(jù)可視化 644.2.1 直方圖 654.2.2 盒狀圖 694.2.3 莖葉圖 704.2.4 餅圖 724.2.5 累積分布圖 724.2.6 散點(diǎn)圖 734.2.7 等高線圖 754.2.8 曲面圖 754.2.9 低維切片圖 764.2.10 矩陣圖 764.2.11 平行坐標(biāo)系圖 774.2.12 其他技術(shù) 784.2.13 可視化的原則 804.2.14 應(yīng)用可視化方法 804.3 數(shù)據(jù)統(tǒng)計(jì)分析 814.3.1 集中量數(shù) 814.3.2 差異量數(shù) 854.3.3 多元匯總統(tǒng)計(jì) 874.3.4 相關(guān)性分析 884.4 加載Excel插件 894.4.1 加載數(shù)據(jù)分析插件 894.4.2 加載統(tǒng)計(jì)分析插件 90本章小結(jié) 90思考與練習(xí) 91參考文獻(xiàn) 92第5章 關(guān)聯(lián)分析 935.1 關(guān)聯(lián)分析原理 935.1.1 問(wèn)題提出 935.1.2 基本概念 945.1.3 關(guān)聯(lián)規(guī)則挖掘 965.2 由候選項(xiàng)集產(chǎn)生頻繁項(xiàng)集 975.2.1 蠻力方法 975.2.2 先驗(yàn)算法 995.2.3 Fk-1×F1方法 1045.2.4 Fk-1×Fk-1方法 1045.3 計(jì)算支持度計(jì)數(shù) 1065.3.1 用事務(wù)去逐個(gè)統(tǒng)計(jì)候選項(xiàng)集 1065.3.2 枚舉各事務(wù)中的項(xiàng)集并計(jì)數(shù) 1075.3.3 Hash樹(shù) 1085.4 FP-Growth算法 1105.4.1 FP-樹(shù)的創(chuàng)建 1105.4.2 從FP-樹(shù)中提取頻繁項(xiàng)集 1125.4.3 FP-Growth算法 1165.5 產(chǎn)生頻繁項(xiàng)集算法復(fù)雜度 1175.5.1 Apriori原理下的算法復(fù)雜度 1175.5.2 FP-Growth算法的復(fù)雜度 1195.6 生成規(guī)則 1195.6.1 關(guān)聯(lián)規(guī)則的概念 1195.6.2 生成規(guī)則的方法 1195.7 關(guān)聯(lián)規(guī)則的評(píng)估 1245.7.1 提升度 1245.7.2 杠桿率 1255.7.3 確信度 1255.7.4 興趣因子 1265.7.5 Kulc度量 1275.7.6 余弦度量 1275.7.7 不平衡比 1285.7.8 相關(guān)分析 1285.7.9 IS度量 128本章小結(jié) 129思考與練習(xí) 129參考文獻(xiàn) 131第6章 分類預(yù)測(cè) 1326.1 分類的原理 1326.1.1 分類的基本原理 1326.1.2 建立分類模型的算法 1346.1.3 對(duì)分類算法的要求 1356.2 決策樹(shù)分類 1356.2.1 決策樹(shù)分類的原理 1356.2.2 CLS算法 1396.2.3 不同屬性的劃分方法 1406.2.4 信息增益 1426.2.5 信息增益率 1466.2.6 GINI系數(shù) 1486.2.7 分類誤差 1506.2.8 連續(xù)數(shù)值型屬性的離散化與劃分 1526.2.9 決策樹(shù)剪枝 1546.2.10 常見(jiàn)算法 1636.2.11 決策樹(shù)回歸分析 1646.2.12 決策樹(shù)分類的特點(diǎn) 1656.3 k-近鄰分類 1676.3.1 相似性的度量方法 1676.3.2 k值確定 1726.3.3 多數(shù)投票機(jī)制 1736.3.4 以近鄰半徑判定 1736.3.5 k-近鄰回歸 1736.3.6 算法特點(diǎn) 1746.4 貝葉斯分類器 1756.4.1 貝葉斯定理 1776.4.2 基于貝葉斯定理的分類應(yīng)用 1786.4.3 樸素貝葉斯分類器 1796.4.4 貝葉斯分類器評(píng)估 1856.4.5 貝葉斯信念網(wǎng)絡(luò) 1866.5 人工神經(jīng)網(wǎng)絡(luò) 1926.5.1 基本結(jié)構(gòu) 1936.5.2 基本特性 1976.5.3 BP人工神經(jīng)網(wǎng)絡(luò) 1986.5.4 其他神經(jīng)網(wǎng)絡(luò) 2056.6 支持向量機(jī) 2056.6.1 支持向量機(jī)的原理 2066.6.2 求解分割超平面 2106.6.3 復(fù)雜數(shù)據(jù)分類 2126.7 集成分類器 2156.7.1 提升(Boosting) 2166.7.2 自助聚合(Bagging) 2216.8 模型評(píng)估 2236.8.1 混淆矩陣及二元分類評(píng)估 2236.8.2 馬修相關(guān)系數(shù)(Mathew Correlation Coeff?icient,MCC) 2256.8.3 F度量(F-Measure) 2256.8.4 ROC 2266.8.5 PR曲線 228本章小結(jié) 229思考與練習(xí) 230參考文獻(xiàn) 231第7章 聚類分析 2337.1 聚類的基本概念 2337.1.1 相似性的度量方法 2347.1.2 聚類分析的分類 2357.1.3 典型聚類算法 2367.2 k均值(k-means)聚類方法 2367.2.1 k-means算法 2367.2.2 k-means算法的特點(diǎn) 2427.2.3 k中心點(diǎn)(k-medoids)算法 2437.3 層次聚類 2447.3.1 層次聚類的算法 2457.3.2 簇的相似度衡量方法 2487.3.3 層次聚類的特點(diǎn) 2517.4 DBSCAN聚類 2517.4.1 DBSCAN算法 2517.4.2 選擇Eps和minPts 2527.4.3 DBSCAN算法的特點(diǎn) 2567.5 譜聚類 2577.5.1 譜聚類算法 2577.5.2 譜聚類算法的特點(diǎn) 2637.6 聚類算法評(píng)估 2647.6.1 聚類算法的要求 2647.6.2 簇評(píng)估 265本章小結(jié) 267思考與練習(xí) 268參考文獻(xiàn) 269第8章 回歸分析 2708.1 回歸分析的概念 2708.2 回歸算法 2718.2.1 一元線性回歸分析 2718.2.2 多元線性回歸分析 2748.2.3 非線性回歸數(shù)據(jù)分析 2768.2.4 Logistic回歸 2788.3 回歸的評(píng)估與檢驗(yàn) 2838.3.1 R方 2838.3.2 F檢驗(yàn) 2848.3.3 t檢驗(yàn) 286本章小結(jié) 288思考與練習(xí) 288參考文獻(xiàn) 291第9章 數(shù)據(jù)挖掘的工具 2929.1 MATLAB 2929.2 SPSS Modeler 2939.3 SAS Enterprise Miner 2949.4 WEKA 2969.5 Python 296本章小結(jié) 297參考文獻(xiàn) 298第10章 WEKA數(shù)據(jù)挖掘應(yīng)用 29910.1 WEKA簡(jiǎn)介 29910.1.1 WEKA安裝與運(yùn)行 29910.1.2 Arff數(shù)據(jù)格式 30010.2 Explorer 30210.2.1 Preprocess(數(shù)據(jù)預(yù)處理) 30310.2.2 Associate(關(guān)聯(lián)分析) 30510.2.3 Classify(分類分析) 30910.2.4 回歸分析 32810.2.5 Cluster(聚類分析) 33610.2.6 Select Attributes(選擇屬性) 34310.2.7 Visualize(可視化) 34710.3 Experimenter 34810.3.1 設(shè)置模塊 34810.3.2 運(yùn)行模塊 34810.3.3 分析模塊 34810.4 KnowledgeFlow 35010.5 WEKA API 35510.6 WEKA的設(shè)置和使用 35610.6.1 顯示漢字 35610.6.2 安裝算法包 357本章小結(jié) 358思考與練習(xí) 358參考文獻(xiàn) 359