大數(shù)據(jù)架構(gòu)詳解是一本大數(shù)據(jù)深度學(xué)習(xí)書籍,書本全名叫做大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí),由華為大數(shù)據(jù)服務(wù)首席規(guī)劃師朱潔和羅華霖兩人共同編著。本書內(nèi)容豐富翔實(shí),主要圍繞著一個(gè)通用技術(shù)棧來(lái)組織章節(jié),主要聚焦大數(shù)據(jù)平臺(tái)的一些知識(shí)。作者詳細(xì)介紹了數(shù)據(jù)獲?。ㄌ结槨⑴老x(chóng)、日志采集等)、流處理(流式數(shù)據(jù)處理引擎、storm、spark streaming等)、批處理、機(jī)器學(xué)習(xí)(bsp并行計(jì)算模型、人工智能、機(jī)器學(xué)習(xí)等)、技術(shù)存儲(chǔ)(存儲(chǔ)硬件、存儲(chǔ)指標(biāo)、raid技術(shù))等各種技術(shù),從而幫助讀者更好的了解大數(shù)據(jù),歡迎免費(fèi)下載閱讀。
內(nèi)容介紹
《大數(shù)據(jù)架構(gòu)詳解》從架構(gòu)、業(yè)務(wù)、技術(shù)三個(gè)維度深入淺出地介紹了大數(shù)據(jù)處理領(lǐng)域端到端的知識(shí)。主要內(nèi)容包括三部分:第一部分從數(shù)據(jù)的產(chǎn)生、采集、計(jì)算、存儲(chǔ)、消費(fèi)端到端的角度介紹大數(shù)據(jù)技術(shù)的起源、發(fā)展、關(guān)鍵技術(shù)點(diǎn)和未來(lái)趨勢(shì),結(jié)合生動(dòng)的業(yè)界*新產(chǎn)品,以及學(xué)術(shù)界*新的研究方向和成果,讓深?yuàn)W的技術(shù)淺顯易懂;第二部分從業(yè)務(wù)和技術(shù)角度介紹實(shí)際案例,讓讀者理解大數(shù)據(jù)的用途及技術(shù)的本質(zhì);第三部分介紹大數(shù)據(jù)技術(shù)不是孤立的,講解如何與前沿的云技術(shù)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相結(jié)合??偟膩?lái)說(shuō),本書圍繞一個(gè)通用技術(shù)棧來(lái)組織章節(jié),主要聚焦大數(shù)據(jù)平臺(tái)的一些知識(shí)。主要分為三部分。
第一部分:第1~3章,主要講述大數(shù)據(jù)的本質(zhì)、運(yùn)營(yíng)商大數(shù)據(jù)的架構(gòu)和一些基本的業(yè)務(wù)知識(shí)。
第1章:闡述大數(shù)據(jù)的本質(zhì)和面臨的挑戰(zhàn)。
第2章:概述大數(shù)據(jù)架構(gòu)及背后的驅(qū)動(dòng)因素,以及未來(lái)發(fā)展的趨勢(shì)。
第3章:介紹運(yùn)營(yíng)商領(lǐng)域的業(yè)務(wù),讓讀者對(duì)大數(shù)據(jù)能做什么有一個(gè)直觀的感受。
第二部分:第4~11章,圍繞大數(shù)據(jù)平臺(tái)技術(shù)棧來(lái)闡述數(shù)據(jù)獲取、處理、分析和應(yīng)用平臺(tái)涉及的技術(shù)。
第4章:介紹數(shù)據(jù)獲取涉及的探針、爬蟲(chóng)、日志采集、數(shù)據(jù)分發(fā)中間件等技術(shù)。
第5章:介紹流式數(shù)據(jù)處理引擎、CEP、流式應(yīng)用。
第6章:介紹交互式分析技術(shù)、MPP DB、熱門的SQL on Hadoop技術(shù)。
第7章:介紹批處理技術(shù)、Spark,以及大規(guī)模機(jī)器學(xué)習(xí)的BSP技術(shù)等。
第8章:探討機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相關(guān)技術(shù)。
第9章:統(tǒng)一資源管理是趨勢(shì),本章介紹資源管理的核心技術(shù)和算法。
第10章:存儲(chǔ)是基礎(chǔ),本章介紹存儲(chǔ)的關(guān)鍵技術(shù)。
第11章:探討大數(shù)據(jù)技術(shù)怎么云化,以及關(guān)鍵技術(shù)是什么。
第三部分:第12章,技術(shù)和文化息息相關(guān),技術(shù)影響文化,文化影響技術(shù)。
第12章:介紹大數(shù)據(jù)開(kāi)發(fā)文化、開(kāi)源、DevOps,探討理念和文化對(duì)技術(shù)的沖擊。
章節(jié)目錄
第一部分 大數(shù)據(jù)的本質(zhì)
第1章 大數(shù)據(jù)是什么 2
1.1 大數(shù)據(jù)導(dǎo)論 2
1.1.1 大數(shù)據(jù)簡(jiǎn)史 2
1.1.2 大數(shù)據(jù)現(xiàn)狀 3
1.1.3 大數(shù)據(jù)與BI 3
1.2 企業(yè)數(shù)據(jù)資產(chǎn) 4
1.3 大數(shù)據(jù)挑戰(zhàn) 5
1.3.1 成本挑戰(zhàn) 6
1.3.2 實(shí)時(shí)性挑戰(zhàn) 6
1.3.3 安全挑戰(zhàn) 6
1.4 小結(jié) 6
第2章 運(yùn)營(yíng)商大數(shù)據(jù)架構(gòu) 7
2.1 架構(gòu)驅(qū)動(dòng)的因素 7
2.2 大數(shù)據(jù)平臺(tái)架構(gòu) 7
2.3 平臺(tái)發(fā)展趨勢(shì) 8
2.4 小結(jié) 8
第3章 運(yùn)營(yíng)商大數(shù)據(jù)業(yè)務(wù) 9
3.1 運(yùn)營(yíng)商常見(jiàn)的大數(shù)據(jù)業(yè)務(wù) 9
3.1.1 SQM(運(yùn)維質(zhì)量管理) 9
3.1.2 CSE(客戶體驗(yàn)提升) 9
3.1.3 MSS(市場(chǎng)運(yùn)維支撐) 10
3.1.4 DMP(數(shù)據(jù)管理平臺(tái)) 10
3.2 小結(jié) 11
第二部分 大數(shù)據(jù)技術(shù)
第4章 數(shù)據(jù)獲取 14
4.1 數(shù)據(jù)分類 14
4.2 數(shù)據(jù)獲取組件 14
4.3 探針 15
4.3.1 探針原理 15
4.3.2 探針的關(guān)鍵能力 16
4.4 網(wǎng)頁(yè)采集 26
4.4.1 網(wǎng)絡(luò)爬蟲(chóng) 26
4.4.2 簡(jiǎn)單爬蟲(chóng)Python代碼示例 32
4.5 日志收集 33
4.5.1 Flume 33
4.5.2 其他日志收集組件 47
4.6 數(shù)據(jù)分發(fā)中間件 47
4.6.1 數(shù)據(jù)分發(fā)中間件的作用 47
4.6.2 Kafka架構(gòu)和原理 47
4.7 小結(jié) 82
第5章 流處理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的應(yīng)用場(chǎng)景 84
5.3.1 金融領(lǐng)域 84
5.3.2 電信領(lǐng)域 85
5.4 業(yè)界兩種典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融合框架 102
5.5 CEP 108
5.5.1 CEP是什么 108
5.5.2 CEP的架構(gòu) 109
5.5.3 Esper 110
5.6 實(shí)時(shí)結(jié)合機(jī)器學(xué)習(xí) 110
5.6.1 Eagle的特點(diǎn) 111
5.6.2 Eagle概覽 111
5.7 小結(jié) 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技術(shù) 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP數(shù)據(jù)庫(kù) 121
6.2.3 MPP DB調(diào)優(yōu)實(shí)戰(zhàn) 131
6.2.4 MPP DB適用場(chǎng)景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大數(shù)據(jù)倉(cāng)庫(kù) 167
6.4.1 數(shù)據(jù)倉(cāng)庫(kù)的概念 167
6.4.2 OLTP/OLAP對(duì)比 168
6.4.3 大數(shù)據(jù)場(chǎng)景下的同與不同 168
6.4.4 查詢引擎 169
6.4.5 存儲(chǔ)引擎 170
6.5 小結(jié) 171
第7章 批處理技術(shù) 172
7.1 批處理技術(shù)的概念 172
7.2 MPP DB技術(shù) 172
7.3 MapReduce編程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架構(gòu)和原理 177
7.4.1 Spark的起源和特點(diǎn) 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什么是BSP模型 217
7.5.2 并行模型介紹 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特點(diǎn) 222
7.5.5 BSP模型的評(píng)價(jià) 222
7.5.6 BSP與MapReduce對(duì)比 222
7.5.7 BSP模型的實(shí)現(xiàn) 223
7.5.8 Apache Hama簡(jiǎn)介 223
7.6 批處理關(guān)鍵技術(shù) 227
7.6.1 CodeGen 227
7.6.2 CPU親和技術(shù) 228
7.7 小結(jié) 229
第8章 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘 230
8.1 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別 230
8.2 典型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)過(guò)程 231
8.3 機(jī)器學(xué)習(xí)概覽 232
8.3.1 學(xué)習(xí)方式 232
8.3.2 算法類似性 233
8.4 機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 決策樹(shù)用于電信領(lǐng)域故障快速定位 236
8.4.3 圖像識(shí)別領(lǐng)域 236
8.4.4 自然語(yǔ)言識(shí)別 238
8.5 交互式分析 239
8.6 深度學(xué)習(xí) 240
8.6.1 深度學(xué)習(xí)概述 240
8.6.2 機(jī)器學(xué)習(xí)的背景 241
8.6.3 人腦視覺(jué)機(jī)理 242
8.6.4 關(guān)于特征 244
8.6.5 需要有多少個(gè)特征 245
8.6.6 深度學(xué)習(xí)的基本思想 246
8.6.7 淺層學(xué)習(xí)和深度學(xué)習(xí) 246
8.6.8 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 247
8.6.9 深度學(xué)習(xí)的訓(xùn)練過(guò)程 248
8.6.10 深度學(xué)習(xí)的框架 248
8.6.11 深度學(xué)習(xí)與GPU 255
8.6.12 深度學(xué)習(xí)小結(jié)與展望 256
8.7 小結(jié) 257
第9章 資源管理 258
9.1 資源管理的基本概念 258
9.1.1 資源調(diào)度的目標(biāo)和價(jià)值 258
9.1.2 資源調(diào)度的使用限制及難點(diǎn) 258
9.2 Hadoop領(lǐng)域的資源調(diào)度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本節(jié)小結(jié) 263
9.3 資源分配算法 263
9.3.1 算法的作用 263
9.3.2 幾種調(diào)度算法分析 263
9.4 數(shù)據(jù)中心統(tǒng)一資源調(diào)度 271
9.4.1 Mesos+Marathon架構(gòu)和原理 271
9.4.2 Mesos+Marathon小結(jié) 283
9.5 多租戶技術(shù) 284
9.5.1 多租戶概念 284
9.5.2 多租戶方案 284
9.6 基于應(yīng)用描述的智能調(diào)度 287
9.7 Apache Mesos架構(gòu)和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos總體架構(gòu) 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos關(guān)鍵技術(shù) 295
9.7.5 Mesos與YARN比較 304
9.8 小結(jié) 305
第10章 存儲(chǔ)是基礎(chǔ) 306
10.1 分久必合,合久必分 306
10.2 存儲(chǔ)硬件的發(fā)展 306
10.2.1 機(jī)械硬盤的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件發(fā)展小結(jié) 309
10.3 存儲(chǔ)關(guān)鍵指標(biāo) 309
10.4 RAID技術(shù) 309
10.5 存儲(chǔ)接口 310
10.5.1 文件接口 311
10.5.2 裸設(shè)備 311
10.5.3 對(duì)象接口 312
10.5.4 塊接口 316
10.5.5 融合是趨勢(shì) 328
10.6 存儲(chǔ)加速技術(shù) 328
10.6.1 數(shù)據(jù)組織技術(shù) 328
10.6.2 緩存技術(shù) 335
10.7 小結(jié) 336
第11章 大數(shù)據(jù)云化 337
11.1 云計(jì)算定義 337
11.2 應(yīng)用上云 337
11.2.1 Cloud Native概念 338
11.2.2 微服務(wù)架構(gòu) 338
11.2.3 Docker配合微服務(wù)架構(gòu) 342
11.2.4 應(yīng)用上云小結(jié) 348
11.3 大數(shù)據(jù)上云 348
11.3.1 大數(shù)據(jù)云服務(wù)的兩種模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服務(wù)模式Azure Data Lake Analytics 352
11.4 小結(jié) 354
第三部分 大數(shù)據(jù)文化
第12章 大數(shù)據(jù)技術(shù)開(kāi)發(fā)文化 356
12.1 開(kāi)源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的組合 357
12.2.2 對(duì)應(yīng)用程序發(fā)布的影響 357
12.2.3 遇到的問(wèn)題 358
12.2.4 協(xié)調(diào)人 358
12.2.5 成功的關(guān)鍵 359
12.3 速度遠(yuǎn)比你想的重要 35912.4 小結(jié) 361
使用說(shuō)明
1、下載并解壓,得出pdf文件
2、如果打不開(kāi)本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開(kāi)解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問(wèn)題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- 得間免費(fèi)小說(shuō)電腦版 v5.3.0.372.58M / 簡(jiǎn)體中文
- 有柿電腦版 v11.6.284.23M / 簡(jiǎn)體中文
- cnki全球?qū)W術(shù)快報(bào)電腦版 v1.0.1135.99M / 簡(jiǎn)體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡(jiǎn)體中文
- 吉利博瑞用戶手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- 未公開(kāi)的Oracle數(shù)據(jù)庫(kù)秘密 迪貝斯pdf掃描版34.69M / 簡(jiǎn)體中文
- PHP語(yǔ)言精粹電子書 pdf掃描版25.72M / 簡(jiǎn)體中文
- 本草綱目 5.34M / 簡(jiǎn)體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡(jiǎn)體中文
- Scala程序設(shè)計(jì)第二版 pdf高清完整版15.83M / 簡(jiǎn)體中文