hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)是一本Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)書籍,由張良均,樊哲,趙云龍和李成華四人共同編著。本書以大家熟知的Hadoop技術(shù)來展開,理論部分介紹了Hadoop生態(tài)系統(tǒng)基本原理及常用大數(shù)據(jù)挖掘建模工具。案例部分以解決某個(gè)應(yīng)用的挖掘目標(biāo)為前提,先介紹案例背景提出挖掘目標(biāo),再闡述分析方法與過程,最后完成模型構(gòu)建,在介紹建模過程中穿插操作訓(xùn)練,把相關(guān)的知識點(diǎn)嵌入相應(yīng)的操作過程中,使讀者輕松理解并掌握相關(guān)的理論和知識點(diǎn)。
《hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》共16章,分三個(gè)部分:基礎(chǔ)篇、實(shí)戰(zhàn)篇、高級篇。
基礎(chǔ)篇(第1~6章),第1章的主要內(nèi)容是數(shù)據(jù)挖掘概述、大數(shù)據(jù)餐飲行業(yè)應(yīng)用;第2章針對大數(shù)據(jù)理論知識進(jìn)行基礎(chǔ)講解,簡明扼要地對Hadoop安裝、原理等做了介紹;第3章介紹了大數(shù)據(jù)倉庫Hive的安裝、原理等內(nèi)容;第4章介紹了大數(shù)據(jù)數(shù)據(jù)庫HBase的安裝、原理等內(nèi)容;第5章介紹了幾種大數(shù)據(jù)挖掘建模平臺,同時(shí)重點(diǎn)介紹了本書使用的開源TipDM-HB大數(shù)據(jù)挖掘平臺;第6章對數(shù)據(jù)挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數(shù)據(jù)挖掘算法庫Mahout的實(shí)現(xiàn)原理進(jìn)行了介紹。
實(shí)戰(zhàn)篇(第7~14章),重點(diǎn)對大數(shù)據(jù)挖掘技術(shù)在法律咨詢、電子商務(wù)、航空、移動(dòng)通信、互聯(lián)網(wǎng)、生產(chǎn)制造以及公共服務(wù)等行業(yè)的應(yīng)用進(jìn)行了分析。在案例結(jié)構(gòu)組織上,本書是按照先介紹案例背景與挖掘目標(biāo),再闡述大數(shù)據(jù)時(shí)代針對大數(shù)據(jù)的分析方法與過程,最后完成模型構(gòu)建的順序進(jìn)行,對建模過程等關(guān)鍵環(huán)節(jié)進(jìn)行了詳細(xì)的分析。最后通過上機(jī)實(shí)踐,加深對大數(shù)據(jù)挖掘技術(shù)以及分析流程的認(rèn)識。
高級篇(第15~16章),介紹了基于Hadoop大數(shù)據(jù)開發(fā)的相關(guān)技術(shù)以及開發(fā)步驟,同時(shí)使用實(shí)例來展示這些步驟,使讀者可以自己動(dòng)手實(shí)踐,親自體會(huì)開發(fā)的樂趣;同時(shí),還介紹了基于TipDM-HB大數(shù)據(jù)挖掘平臺的二次開發(fā)實(shí)例,借助TipDM-HB大數(shù)據(jù)挖掘平臺二次開發(fā)工具,可以更加快捷、高效地完成相關(guān)大數(shù)據(jù)應(yīng)用的二次開發(fā),降低開發(fā)難度,使讀者更方便地體會(huì)到大數(shù)據(jù)分析與挖掘的強(qiáng)大魅力。
2、如果打不開本文件,請務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀試讀
收起介紹展開介紹
內(nèi)容介紹
10多位技術(shù)專家結(jié)合自己10多年的經(jīng)驗(yàn),以電信、航空、醫(yī)療等多個(gè)行業(yè)的實(shí)戰(zhàn)案例為主線,深入淺出地講解了如何基于Hadoop架構(gòu)技術(shù)進(jìn)行大數(shù)據(jù)挖掘建模、數(shù)據(jù)分析和二次開發(fā)。《hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》共16章,分三個(gè)部分:基礎(chǔ)篇、實(shí)戰(zhàn)篇、高級篇。
基礎(chǔ)篇(第1~6章),第1章的主要內(nèi)容是數(shù)據(jù)挖掘概述、大數(shù)據(jù)餐飲行業(yè)應(yīng)用;第2章針對大數(shù)據(jù)理論知識進(jìn)行基礎(chǔ)講解,簡明扼要地對Hadoop安裝、原理等做了介紹;第3章介紹了大數(shù)據(jù)倉庫Hive的安裝、原理等內(nèi)容;第4章介紹了大數(shù)據(jù)數(shù)據(jù)庫HBase的安裝、原理等內(nèi)容;第5章介紹了幾種大數(shù)據(jù)挖掘建模平臺,同時(shí)重點(diǎn)介紹了本書使用的開源TipDM-HB大數(shù)據(jù)挖掘平臺;第6章對數(shù)據(jù)挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數(shù)據(jù)挖掘算法庫Mahout的實(shí)現(xiàn)原理進(jìn)行了介紹。
實(shí)戰(zhàn)篇(第7~14章),重點(diǎn)對大數(shù)據(jù)挖掘技術(shù)在法律咨詢、電子商務(wù)、航空、移動(dòng)通信、互聯(lián)網(wǎng)、生產(chǎn)制造以及公共服務(wù)等行業(yè)的應(yīng)用進(jìn)行了分析。在案例結(jié)構(gòu)組織上,本書是按照先介紹案例背景與挖掘目標(biāo),再闡述大數(shù)據(jù)時(shí)代針對大數(shù)據(jù)的分析方法與過程,最后完成模型構(gòu)建的順序進(jìn)行,對建模過程等關(guān)鍵環(huán)節(jié)進(jìn)行了詳細(xì)的分析。最后通過上機(jī)實(shí)踐,加深對大數(shù)據(jù)挖掘技術(shù)以及分析流程的認(rèn)識。
高級篇(第15~16章),介紹了基于Hadoop大數(shù)據(jù)開發(fā)的相關(guān)技術(shù)以及開發(fā)步驟,同時(shí)使用實(shí)例來展示這些步驟,使讀者可以自己動(dòng)手實(shí)踐,親自體會(huì)開發(fā)的樂趣;同時(shí),還介紹了基于TipDM-HB大數(shù)據(jù)挖掘平臺的二次開發(fā)實(shí)例,借助TipDM-HB大數(shù)據(jù)挖掘平臺二次開發(fā)工具,可以更加快捷、高效地完成相關(guān)大數(shù)據(jù)應(yīng)用的二次開發(fā),降低開發(fā)難度,使讀者更方便地體會(huì)到大數(shù)據(jù)分析與挖掘的強(qiáng)大魅力。
章節(jié)目錄
前 言 基 礎(chǔ) 篇 第1章 數(shù)據(jù)挖掘基礎(chǔ)2 1.1 某知名連鎖餐飲企業(yè)的困惑2 1.2 從餐飲服務(wù)到數(shù)據(jù)挖掘3 1.3 數(shù)據(jù)挖掘的基本任務(wù)4 1.4 數(shù)據(jù)挖掘建模過程4 1.4.1 定義挖掘目標(biāo)4 1.4.2 數(shù)據(jù)取樣5 1.4.3 數(shù)據(jù)探索6 1.4.4 數(shù)據(jù)預(yù)處理12 1.4.5 挖掘建模14 1.4.6 模型評價(jià)14 1.5 餐飲服務(wù)中的大數(shù)據(jù)應(yīng)用15 1.6 小結(jié)15 第2章 Hadoop基礎(chǔ)16 2.1 概述16 2.1.1 Hadoop簡介16 2.1.2 Hadoop生態(tài)系統(tǒng)17 2.2 安裝與配置19 2.3 Hadoop原理26 2.3.1 Hadoop HDFS原理26 2.3.2 Hadoop MapReduce原理27 2.3.3 Hadoop YARN原理28 2.4 動(dòng)手實(shí)踐30 2.5 小結(jié)33 第3章 Hadoop生態(tài)系統(tǒng):Hive34 3.1 概述34 3.1.1 Hive簡介34 3.1.2 Hive安裝與配置35 3.2 Hive原理38 3.2.1 Hive架構(gòu)38 3.2.2 Hive的數(shù)據(jù)模型40 3.3 動(dòng)手實(shí)踐41 3.4 小結(jié)45 第4章 Hadoop生態(tài)系統(tǒng):HBase46 4.1 概述46 4.1.1 HBase簡介46 4.1.2 HBase安裝與配置47 4.2 HBase原理50 4.2.1 HBase架構(gòu)50 4.2.2 HBase與RDBMS51 4.2.3 HBase訪問接口52 4.2.4 HBase數(shù)據(jù)模型53 4.3 動(dòng)手實(shí)踐54 4.4 小結(jié)61 第5章 大數(shù)據(jù)挖掘建模平臺62 5.1 常用的大數(shù)據(jù)平臺62 5.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺63 5.2.1 TipDM-HB大數(shù)據(jù)挖掘建模平臺的功能63 5.2.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺操作流程及實(shí)例65 5.2.3 TipDM-HB大數(shù)據(jù)挖掘建模平臺的特點(diǎn)67 5.3 小結(jié)68 第6章 挖掘建模69 6.1 分類與預(yù)測69 6.1.1 實(shí)現(xiàn)過程69 6.1.2 常用的分類與預(yù)測算法70 6.1.3 決策樹71 6.1.4 Mahout中Random Forests算法的實(shí)現(xiàn)原理75 6.1.5 動(dòng)手實(shí)踐79 6.2 聚類分析83 6.2.1 常用聚類分析算法83 6.2.2 K-Means聚類算法84 6.2.3 Mahout中K-Means算法的實(shí)現(xiàn)原理88 6.2.4 動(dòng)手實(shí)踐90 6.3 關(guān)聯(lián)規(guī)則93 6.3.1 常用的關(guān)聯(lián)規(guī)則算法93 6.3.2 FP-Growth關(guān)聯(lián)規(guī)則算法94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的實(shí)現(xiàn)原理98 6.3.4 動(dòng)手實(shí)踐100 6.4 協(xié)同過濾102 6.4.1 常用的協(xié)同過濾算法102 6.4.2 基于項(xiàng)目的協(xié)同過濾算法簡介102 6.4.3 Mahout中Itembased Collaborative Filtering算法的實(shí)現(xiàn)原理103 6.4.4 動(dòng)手實(shí)踐106 6.5 小結(jié)109 實(shí) 戰(zhàn) 篇 第7章 法律咨詢數(shù)據(jù)分析與服務(wù)推薦112 7.1 背景與挖掘目標(biāo)112 7.2 分析方法與過程114 7.2.1 數(shù)據(jù)抽取120 7.2.2 數(shù)據(jù)探索分析120 7.2.3 數(shù)據(jù)預(yù)處理125 7.2.4 模型構(gòu)建130 7.3 上機(jī)實(shí)驗(yàn)139 7.4 拓展思考140 7.5 小結(jié)145 第8章 電商產(chǎn)品評論數(shù)據(jù)情感分析146 8.1 背景與挖掘目標(biāo)146 8.2 分析方法與過程146 8.2.1 評論數(shù)據(jù)采集147 8.2.2 評論預(yù)處理150 8.2.3 文本評論分詞155 8.2.4 構(gòu)建模型155 8.3 上機(jī)實(shí)驗(yàn)167 8.4 拓展思考168 8.5 小結(jié)169 第9章 航空公司客戶價(jià)值分析170 9.1 背景與挖掘目標(biāo)170 9.2 分析方法與過程171 9.2.1 數(shù)據(jù)抽取174 9.2.2 數(shù)據(jù)探索分析174 9.2.3 數(shù)據(jù)預(yù)處理175 9.2.4 模型構(gòu)建177 9.3 上機(jī)實(shí)驗(yàn)182 9.4 拓展思考183 9.5 小結(jié)183 第10章 基站定位數(shù)據(jù)商圈分析184 10.1 背景與挖掘目標(biāo)184 10.2 分析方法與過程186 10.2.1 數(shù)據(jù)抽取186 10.2.2 數(shù)據(jù)探索分析187 10.2.3 數(shù)據(jù)預(yù)處理188 10.2.4 構(gòu)建模型191 10.3 上機(jī)實(shí)驗(yàn)194 10.4 拓展思考195 10.5 小結(jié)195 第11章 互聯(lián)網(wǎng)電影智能推薦196 11.1 背景與挖掘目標(biāo)196 11.2 分析方法與過程197 11.2.1 數(shù)據(jù)抽取199 11.2.2 構(gòu)建模型199 11.3 上機(jī)實(shí)驗(yàn)201 11.4 拓展思考202 11.5 小結(jié)203 第12章 家電故障備件儲(chǔ)備預(yù)測分析204 12.1 背景與挖掘目標(biāo)204 12.2 分析方法與過程206 12.2.1 數(shù)據(jù)探索分析207 12.2.2 數(shù)據(jù)預(yù)處理209 12.2.3 構(gòu)建模型212 12.3 上機(jī)實(shí)驗(yàn)216 12.4 拓展思考217 12.5 小結(jié)217 第13章 市供水混凝投藥量控制分析218 13.1 背景與挖掘目標(biāo)218 13.2 分析方法與過程220 13.2.1 數(shù)據(jù)抽取221 13.2.2 數(shù)據(jù)探索分析221 13.2.3 數(shù)據(jù)預(yù)處理223 13.2.4 構(gòu)建模型227 13.3 上機(jī)實(shí)驗(yàn)237 13.4 拓展思考238 13.5 小結(jié)239 第14章 基于圖像處理的車輛壓雙黃線檢測240 14.1 背景與挖掘目標(biāo)240 14.2 分析方法與過程241 14.2.1 數(shù)據(jù)抽取242 14.2.2 數(shù)據(jù)探索分析242 14.2.3 數(shù)據(jù)預(yù)處理242 14.2.4 構(gòu)建模型249 14.3 上機(jī)實(shí)驗(yàn)250 14.4 拓展思考250 14.5 小結(jié)251 高 級 篇 第15章 基于Mahout的大數(shù)據(jù)挖掘開發(fā)254 15.1 概述254 15.2 環(huán)境配置255 15.3 基于Mahout算法接口的二次開發(fā)258 15.3.1 Mahout算法實(shí)例258 15.3.2 Mahout算法接口的二次開發(fā)示例259 15.4 小結(jié)271 第16章 基于TipDM-HB的數(shù)據(jù)挖掘二次開發(fā)272 16.1 概述272 16.1.1 TipDM-HB大數(shù)據(jù)挖掘建模平臺服務(wù)接口272 16.1.2 Apache CXF簡介276 16.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺服務(wù)開發(fā)實(shí)例277 16.2.1 環(huán)境配置277 16.2.2 開發(fā)實(shí)例280 16.3 小結(jié)288 參考資料289
使用說明
1、下載并解壓,得出pdf文件2、如果打不開本文件,請務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀試讀
- 下載地址
hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn) 張良均pdf掃描版
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 得間免費(fèi)小說電腦版 v5.3.0.372.58M / 簡體中文
- 有柿電腦版 v11.6.284.23M / 簡體中文
- cnki全球?qū)W術(shù)快報(bào)電腦版 v1.0.1135.99M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 未公開的Oracle數(shù)據(jù)庫秘密 迪貝斯pdf掃描版34.69M / 簡體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文
- 本草綱目 5.34M / 簡體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡體中文
- Scala程序設(shè)計(jì)第二版 pdf高清完整版15.83M / 簡體中文