Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)是一本Hadoop數(shù)據(jù)處理技術(shù)指導(dǎo)手冊(cè),由范東來編著。本書主要介紹Hadoop技術(shù)的相關(guān)知識(shí),不但詳細(xì)介紹了Hadoop、MapReduce、HDFS、Hive和Sqoop,還深入探討了Hadoop的運(yùn)維和調(diào)優(yōu),并包含了一個(gè)具有代表性的完整的基于Hadoop的商業(yè)智能系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),全書結(jié)構(gòu)針對(duì)學(xué)習(xí)曲線進(jìn)行了優(yōu)化,從淺至深,從理論基礎(chǔ)到項(xiàng)目實(shí)戰(zhàn),適合Hadoop的初學(xué)者和進(jìn)階者下載閱讀。
收起介紹展開介紹
內(nèi)容介紹
《Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)》介紹了Hadoop技術(shù)的相關(guān)知識(shí),并將理論知識(shí)與實(shí)際項(xiàng)目相結(jié)合。全書共分為三個(gè)部分:基礎(chǔ)篇、應(yīng)用篇和總結(jié)篇。基礎(chǔ)篇詳細(xì)介紹了Hadoop、MapReduce、HDFS、Hive和Sqoop,并深入探討了Hadoop的運(yùn)維和調(diào)優(yōu);應(yīng)用篇?jiǎng)t包含了一個(gè)具有代表性的完整的基于Hadoop的商業(yè)智能系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn);結(jié)束篇對(duì)全書進(jìn)行總結(jié),并對(duì)未來的技術(shù)發(fā)展做了展望。全書結(jié)構(gòu)針對(duì)學(xué)習(xí)曲線進(jìn)行了優(yōu)化,由淺至深,從理論基礎(chǔ)到項(xiàng)目實(shí)戰(zhàn),適合Hadoop的初學(xué)者閱讀,也適合作為高等院校相關(guān)課程的教學(xué)參考書。
章節(jié)目錄
基礎(chǔ)篇:Hadoop基礎(chǔ) 第1章 緒論 1.1 Hadoop和云計(jì)算 1.1.1 Hadoop的電梯演講 1.1.2 Hadoop生態(tài)圈 1.1.3 云計(jì)算的定義 1.1.4 云計(jì)算的類型 1.1.5 Hadoop和云計(jì)算 1.2 Hadoop和大數(shù)據(jù) 1.2.1 大數(shù)據(jù)的定義 1.2.2 大數(shù)據(jù)的結(jié)構(gòu)類型 1.2.3 大數(shù)據(jù)行業(yè)應(yīng)用實(shí)例 1.2.4 Hadoop和大數(shù)據(jù) 1.2.5 其他大數(shù)據(jù)處理平臺(tái) 1.3 數(shù)據(jù)挖掘和商業(yè)智能 1.3.1 數(shù)據(jù)挖掘的定義 1.3.2 數(shù)據(jù)倉庫 1.3.3 操作數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)的區(qū)別 1.3.4 為什么需要分離的數(shù)據(jù)倉庫 1.3.5 商業(yè)智能 1.3.6 大數(shù)據(jù)時(shí)代的商業(yè)智能 第2章 環(huán)境準(zhǔn)備 2.1 Hadoop的發(fā)行版本選擇 2.1.1 Apache Hadoop 2.1.2 CDH 2.1.3 Hadoop的版本 2.1.4 如何選擇Hadoop的版本 2.2 Hadoop架構(gòu) 2.2.1 Hadoop HDFS架構(gòu) 2.2.2 Hadoop MapReduce架構(gòu) 2.2.3 Hadoop架構(gòu) 2.3 安裝Hadoop 2.3.1 安裝運(yùn)行環(huán)境 2.3.2 修改主機(jī)名和用戶名 2.3.3 配置靜態(tài)IP地址 2.3.4 配置SSH無密碼連接 2.3.5 安裝JDK 2.3.6 配置Hadoop 2.3.7 格式化HDFS 2.3.8 啟動(dòng)Hadoop并驗(yàn)證安裝 2.4 安裝Hive 2.4.1 安裝元數(shù)據(jù)庫 2.4.2 修改Hive配置文件 2.4.3 驗(yàn)證安裝 2.5 安裝Sqoop 2.6 Eclipse Hadoop插件的安裝和使用 2.6.1 安裝并配置Eclipse Hadoop插件 2.6.2 Eclipse插件的使用 第3章 Hadoop的基石:HDFS 3.1 認(rèn)識(shí)HDFS 3.1.1 HDFS的設(shè)計(jì)理念 3.1.2 HDFS的架構(gòu) 3.1.3 HDFS容錯(cuò) 3.2 HDFS讀取文件和寫入文件 3.2.1 塊的分布 3.2.2 數(shù)據(jù)讀取 3.2.3 寫入數(shù)據(jù) 3.2.4 數(shù)據(jù)完整性 3.3 如何訪問HDFS 3.3.1 命令行接口 3.3.2 Java API 3.3.3 其他常用的接口 3.3.4 Web UI 第4章 分而治之的智慧:MapReduce 4.1 認(rèn)識(shí)MapReduce 4.1.1 MapReduce的編程思想 4.1.2 MapReduce運(yùn)行環(huán)境 4.1.3 MapReduce作業(yè)和任務(wù) 4.1.4 MapReduce的計(jì)算資源劃分 4.1.5 MapReduce的局限性 4.2 Hello WordCount 4.2.1 WordCount的設(shè)計(jì)思路 4.2.2 編寫WordCount 4.2.3 運(yùn)行程序 4.2.4 還能更快嗎 4.3 MapReduce的過程 4.3.1 從輸入到輸出 4.3.2 input 4.3.3 map及中間結(jié)果的輸出 4.3.4 shuffle 4.3.5 reduce及最后結(jié)果的輸出 4.3.6 sort 4.3.7 作業(yè)的進(jìn)度組成 4.4 MapReduce的工作機(jī)制 4.4.1 作業(yè)提交 4.4.2 作業(yè)初始化 4.4.3 任務(wù)分配 4.4.4 任務(wù)執(zhí)行 4.4.5 任務(wù)完成 4.4.6 推測(cè)執(zhí)行 4.4.7 MapReduce容錯(cuò) 4.5 MapReduce編程 4.5.1 Writable類 4.5.2 編寫Writable類 4.5.3 編寫Mapper類 4.5.4 編寫Reducer類 4.5.5 控制shuffle 4.5.6 控制sort 4.5.7 編寫main函數(shù) 4.6 MapReduce編程實(shí)例:連接 4.6.1 設(shè)計(jì)思路 4.6.2 編寫Mapper類 4.6.3 編寫Reducer類 4.6.4 編寫main函數(shù) 4.7 MapReduce編程實(shí)例:二次排序 4.7.1 設(shè)計(jì)思路 4.7.2 編寫Mapper類 4.7.3 編寫Partitioner類 4.7.4 編寫SortComparator類 4.7.5 編寫Reducer類 4.7.6 編寫main函數(shù) 4.8 MapReduce編程實(shí)例:全排序 4.8.1 設(shè)計(jì)思路 4.8.2 編寫代碼 第5章 SQL on Hadoop:Hive 5.1 認(rèn)識(shí)Hive 5.1.1 從MapReduce到SQL 5.1.2 Hive架構(gòu) 5.1.3 Hive與關(guān)系型數(shù)據(jù)庫的區(qū)別 5.1.4 Hive命令的使用 5.2 數(shù)據(jù)類型和存儲(chǔ)格式 5.2.1 基本數(shù)據(jù)類型 5.2.2 復(fù)雜數(shù)據(jù)類型 5.2.3 存儲(chǔ)格式 5.2.4 數(shù)據(jù)格式 5.3 HQL:數(shù)據(jù)定義 5.3.1 Hive中的數(shù)據(jù)庫 5.3.2 Hive中的表 5.3.3 創(chuàng)建表 5.3.4 管理表 5.3.5 外部表 5.3.6 分區(qū)表 5.3.7 刪除表 5.3.8 修改表 5.4 HQL:數(shù)據(jù)操作 5.4.1 裝載數(shù)據(jù) 5.4.2 通過查詢語句向表中插入數(shù)據(jù) 5.4.3 利用動(dòng)態(tài)分區(qū)向表中插入數(shù)據(jù) 5.4.4 通過CTAS加載數(shù)據(jù) 5.4.5 導(dǎo)出數(shù)據(jù) 5.5 HQL:數(shù)據(jù)查詢 5.5.1 SELECT…FROM語句 5.5.2 WHERE語句 5.5.3 GROUP BY和HAVING語句 5.5.4JOIN語句 5.5.5 ORDER BY和SORT BY語句 5.5.6 DISTRIBUTE BY和SORTBY語句 5.5.7 CLUSTER BY 5.5.8 分桶和抽樣 5.5.9 UNION ALL 5.6 Hive函數(shù) 5.6.1 標(biāo)準(zhǔn)函數(shù) 5.6.2 聚合函數(shù) 5.6.3 表生成函數(shù) 5.7 Hive用戶自定義函數(shù) 5.7.1 UDF 5.7.2 UDAF 5.7.3 UDTF 5.7.4 運(yùn)行 第6章 SQL to Hadoop : Sqoop 6.1 一個(gè)Sqoop示例 6.2 導(dǎo)入過程 6.3 導(dǎo)出過程 6.4 Sqoop的使用 6.4.1 codegen 6.4.2 create-hive-table 6.4.3 eval 6.4.4 export 6.4.5 help 6.4.6 import 6.4.7 import-all-tables 6.4.8 job 6.4.9 list-databases 6.4.10 list-tables 6.4.11 merge 6.4.12 metastore 6.4.13 version 第7章 Hadoop性能調(diào)優(yōu)和運(yùn)維 7.1 Hadoop客戶端 7.2 Hadoop性能調(diào)優(yōu) 7.2.1 選擇合適的硬件 7.2.2 操作系統(tǒng)調(diào)優(yōu) 7.2.3 JVM調(diào)優(yōu) 7.2.4 Hadoop參數(shù)調(diào)優(yōu) 7.3 Hive性能調(diào)優(yōu) 7.3.1 JOIN優(yōu)化 7.3.2 Reducer的數(shù)量 7.3.3 列裁剪 7.3.4 分區(qū)裁剪 7.3.5 GROUP BY優(yōu)化 7.3.6 合并小文件 7.3.7 MULTI-GROUP BY和MULTI-INSERT
使用說明
1、下載并解壓,得出pdf文件2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn) 范東來pdf掃描版
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- 有柿電腦版 v11.6.284.23M / 簡(jiǎn)體中文
- 網(wǎng)易新聞電腦版 v113.197.68M / 簡(jiǎn)體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡(jiǎn)體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡(jiǎn)體中文
- 吉利博瑞用戶手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- 本草綱目 5.34M / 簡(jiǎn)體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡(jiǎn)體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡(jiǎn)體中文