apache spark 源碼剖析是一本Spark代碼源碼學(xué)習(xí)書籍,由許鵬編著,本書全面、系統(tǒng)地介紹了Spark源碼,深入淺出,細(xì)致入微。先提供給讀者一系列分析源碼的實(shí)用技巧,并給出一個(gè)合理的閱讀順序,并且始終抓住資源分配、消息傳遞、容錯(cuò)處理等基本問題,抽絲撥繭,讓讀者一步步尋找答案,所有問題迎刃而解,使讀者知其然更知其所以然,從而掌握學(xué)習(xí)Spark代碼。
內(nèi)容介紹
《apache spark 源碼剖析》以Spark 1.02版本源碼為切入點(diǎn),著力于探尋Spark所要解決的主要問題及其解決辦法,通過(guò)一系列精心設(shè)計(jì)的小實(shí)驗(yàn)來(lái)分析每一步背后的處理邏輯。本書第1章和第2章簡(jiǎn)要介紹了大數(shù)據(jù)分析技術(shù)的產(chǎn)生背景和演進(jìn)過(guò)程;第3~5章詳細(xì)分析了Spark Core中的作業(yè)規(guī)劃、提交及任務(wù)執(zhí)行等內(nèi)容,對(duì)于要深刻把握Spark實(shí)現(xiàn)機(jī)理的讀者來(lái)說(shuō),這幾章值得反復(fù)閱讀;第6~9章就Spark提供的高級(jí)Lib庫(kù)進(jìn)行了簡(jiǎn)要的分析,分析的思路是解決的主要問題是什么、解決的方案是如何產(chǎn)生的,以及方案是如何通過(guò)代碼來(lái)具體實(shí)現(xiàn)的。
apache spark 源碼剖析章節(jié)目錄
第一部分 Spark概述 第1章 初識(shí)Spark 1.1 大數(shù)據(jù)和Spark 1.1.1 大數(shù)據(jù)的由來(lái) 1.1.2 大數(shù)據(jù)的分析 1.1.3 Hadoop 1.1.4 Spark簡(jiǎn)介 1.2 與Spark的第一次親密接觸 1.2.1 環(huán)境準(zhǔn)備 1.2.2 下載安裝Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整體框架 2.1 編程模型 2.1.1 RDD 2.1.2 Operation 2.2 運(yùn)行框架 2.2.1 作業(yè)提交 2.2.2 集群的節(jié)點(diǎn)構(gòu)成 2.2.3 容錯(cuò)處理 2.2.4 為什么是Scala 2.3 源碼閱讀環(huán)境準(zhǔn)備 2.3.1 源碼下載及編譯 2.3.2 源碼目錄結(jié)構(gòu) 2.3.3 源碼閱讀工具 2.3.4 本章小結(jié) 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化綜述 3.3 Spark Repl綜述 3.3.1 Scala Repl執(zhí)行過(guò)程 3.3.2 Spark Repl 第4章 Spark作業(yè)提交 4.1 作業(yè)提交 4.2 作業(yè)執(zhí)行 4.2.1 依賴性分析及Stage劃分 4.2.2 Actor Model和Akka 4.2.3 任務(wù)的創(chuàng)建和分發(fā) 4.2.4 任務(wù)執(zhí)行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存儲(chǔ)機(jī)制 4.3.1 Shuffle結(jié)果的寫入和讀取 4.3.2 Memory Store 4.3.3 存儲(chǔ)子模塊啟動(dòng)過(guò)程分析 4.3.4 數(shù)據(jù)寫入過(guò)程分析 4.3.5 數(shù)據(jù)讀取過(guò)程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 單機(jī)模式local 5.3 偽集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 啟動(dòng)Master 5.4.2 啟動(dòng)Worker 5.4.3 運(yùn)行spark-shell 5.4.4 容錯(cuò)性分析 5.5 Spark On YARN 5.5.1 YARN的編程模型 5.5.2 YARN中的作業(yè)提交 5.5.3 Spark On YARN實(shí)現(xiàn)詳解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整體架構(gòu) 6.1.1 DStream 6.1.2 編程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming執(zhí)行過(guò)程 6.2.1 StreamingContext初始化過(guò)程 6.2.2 數(shù)據(jù)接收 6.2.3 數(shù)據(jù)處理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容錯(cuò)性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm簡(jiǎn)介 6.5.2 Storm和Spark Streaming對(duì)比 6.6 應(yīng)用舉例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL語(yǔ)句的通用執(zhí)行過(guò)程分析 7.2 SQL On Spark的實(shí)現(xiàn)分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON數(shù)據(jù)集 7.4 Hive簡(jiǎn)介 7.4.1 Hive 架構(gòu) 7.4.2 HiveQL On MapReduce執(zhí)行過(guò)程分析 7.5 HiveQL On Spark詳解 7.5.1 Hive On Spark環(huán)境搭建 7.5.2 編譯支持Hadoop 2.x的Spark 7.5.3 運(yùn)行Hive On Spark測(cè)試用例 第8章 GraphX 8.1 GraphX簡(jiǎn)介 8.1.1 主要特點(diǎn) 8.1.2 版本演化 8.1.3 應(yīng)用場(chǎng)景 8.2 分布式圖計(jì)算處理技術(shù)介紹 8.2.1 屬性圖 8.2.2 圖數(shù)據(jù)的存儲(chǔ)與分割 8.3 Pregel計(jì)算模型 8.3.1 BSP 8.3.2 像頂點(diǎn)一樣思考 8.4 GraphX圖計(jì)算框架實(shí)現(xiàn)分析 8.4.1 基本概念 8.4.2 圖的加載與構(gòu)建 8.4.3 圖數(shù)據(jù)存儲(chǔ)與分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源碼實(shí)現(xiàn) 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 線性回歸 9.1.1 數(shù)據(jù)和估計(jì) 9.1.2 線性回歸參數(shù)求解方法 9.1.3 正則化 9.2 線性回歸的代碼實(shí)現(xiàn) 9.2.1 簡(jiǎn)單示例 9.2.2 入口函數(shù)train 9.2.3 最優(yōu)化算法optimizer 9.2.4 權(quán)重更新update 9.2.5 結(jié)果預(yù)測(cè)predict 9.3 分類算法 9.3.1 邏輯回歸 9.3.2 支持向量機(jī) 9.4 擬牛頓法 9.4.1 數(shù)學(xué)原理 9.4.2 代碼實(shí)現(xiàn) 9.5 MLLib與其他應(yīng)用模塊間的整合 第四部分 附錄 附錄A Spark源碼調(diào)試 附錄B 源碼閱讀技巧
使用說(shuō)明
1、下載并解壓,得出pdf文件2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- cnki全球?qū)W術(shù)快報(bào)電腦版 v1.0.1135.99M / 簡(jiǎn)體中文
- 網(wǎng)易新聞電腦版 v113.197.68M / 簡(jiǎn)體中文
- 開源閱讀電腦版 v3.2517.96M / 簡(jiǎn)體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡(jiǎn)體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡(jiǎn)體中文
- 吉利博瑞用戶手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- 未公開的Oracle數(shù)據(jù)庫(kù)秘密 迪貝斯pdf掃描版34.69M / 簡(jiǎn)體中文
- PHP語(yǔ)言精粹電子書 pdf掃描版25.72M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- Scala程序設(shè)計(jì)第二版 pdf高清完整版15.83M / 簡(jiǎn)體中文