123,123,123

Spark 是業(yè)界主流的大數(shù)據(jù)計算框架，擁有強大的分布式計算能力，能夠充分利用大量的廉價機器進行大數(shù)據(jù)的處理工作，同時又具備較高的性能，這使得它在各大互聯(lián)網(wǎng)企業(yè)中有著廣泛的應用。本書通過一系列通俗易懂的數(shù)據(jù)處理實例展開，詳細闡述Spark大數(shù)據(jù)平臺與環(huán)境搭建、Spark RDD 離線數(shù)據(jù)計算、Spark SQL離線數(shù)據(jù)處理、Spark Streaming流數(shù)據(jù)計算等一系列常見的大數(shù)據(jù)處理技術，在此基礎上對Spark框架的核心概念及技術原理進行詳細分析，最后通過一個綜合實例展示Spark離線數(shù)據(jù)處理的具體應用與部署。本書將Scala基礎知識的介紹融入實例中，并未像傳統(tǒng)做法那樣設置單獨的章節(jié)，方便讀者按需學習，以減輕學習一種新編程語言的壓力。全書各環(huán)節(jié)遵循“做中學”的設計理念，內(nèi)容編排貼近初學者的認知規(guī)律，從細小簡單的實例入手，輔以大量配圖，對學習過程中涉及的枯燥數(shù)據(jù)、抽象概念和復雜原理予以圖示化的解釋說明，還安排了大量單元訓練，以達到教學過程中的“學以致用”目的，內(nèi)容編寫以語言淺顯易懂、技術體系清晰、邏輯銜接合理、知識內(nèi)容夠用為原則。在最后安排的數(shù)據(jù)處理綜合實例中，分別從需求分析、技術準備、數(shù)據(jù)清洗、需求實現(xiàn)、數(shù)據(jù)可視化等幾個關鍵環(huán)節(jié)展開敘述，便于讀者對Spark大數(shù)據(jù)項目的整體開發(fā)流程有一個實際的體會。

你還可能感興趣

我要評論