首 頁(yè)
手機(jī)版

spark高級(jí)數(shù)據(jù)分析 pdf掃描版

spark高級(jí)數(shù)據(jù)分析是一本Spark實(shí)用手冊(cè),由著名大數(shù)據(jù)公司Cloudera的四名數(shù)據(jù)科學(xué)家編寫(xiě),他們聯(lián)袂展示了利用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的若干模式,而且每個(gè)模式都自成一體。全書(shū)將Spark、統(tǒng)計(jì)學(xué)方法和真實(shí)數(shù)據(jù)集結(jié)合起來(lái),通過(guò)實(shí)例向讀者講述了怎樣解決分析型問(wèn)題。spark高級(jí)數(shù)據(jù)分析首先介紹了Spark及其生態(tài)系統(tǒng),接著詳細(xì)介紹了將分類、協(xié)同過(guò)濾及異常檢查等常用技術(shù)應(yīng)用于基因?qū)W、安全和金融領(lǐng)域的若干模式。如果你對(duì)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)有基本的了解,并且會(huì)用Java、Python或Scala編程,這些模式將非常有助于你開(kāi)發(fā)自己的數(shù)據(jù)應(yīng)用。

內(nèi)容介紹

《Spark高級(jí)數(shù)據(jù)分析》是使用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的實(shí)戰(zhàn)寶典,由大數(shù)據(jù)公司Cloudera的數(shù)據(jù)科學(xué)家撰寫(xiě)。四位作者首先結(jié)合數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進(jìn)行數(shù)據(jù)處理的基礎(chǔ)知識(shí),接著討論了如何將Spark用于機(jī)器學(xué)習(xí),同時(shí)介紹了常見(jiàn)應(yīng)用中幾個(gè)常用的算法。此外還收集了一些更加新穎的應(yīng)用,比如通過(guò)文本隱含語(yǔ)義關(guān)系來(lái)查詢Wikipedia或分析基因數(shù)據(jù)。

作者簡(jiǎn)介

Sandy Ryza是Cloudera公司數(shù)據(jù)科學(xué)家,Apache Spark項(xiàng)目的活躍代碼貢獻(xiàn)者。領(lǐng)導(dǎo)了Cloudera公司的Spark開(kāi)發(fā)工作。他還是Hadoop項(xiàng)目管理委員會(huì)委員。

Uri Laserson是Cloudera公司數(shù)據(jù)科學(xué)家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。

Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學(xué)總監(jiān),也是Apache Spark項(xiàng)目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實(shí)時(shí)大規(guī)模學(xué)習(xí)項(xiàng)目Oryx(之前稱為Myrrix)。

Josh Wills是Cloudera公司的高級(jí)數(shù)據(jù)科學(xué)總監(jiān),Apache Crunch項(xiàng)目的發(fā)起者和副總裁。

spark高級(jí)數(shù)據(jù)分析章節(jié)目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章 大數(shù)據(jù)分析 1
1.1 數(shù)據(jù)科學(xué)面臨的挑戰(zhàn) 2
1.2 認(rèn)識(shí)Apache Spark 4
1.3 關(guān)于本書(shū) 5
第2 章 用Scala 和Spark 進(jìn)行數(shù)據(jù)分析 7
2.1 數(shù)據(jù)科學(xué)家的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關(guān)聯(lián)問(wèn)題 9
2.4 小試牛刀:Spark shell 和SparkContext 10
2.5 把數(shù)據(jù)從集群上獲取到客戶端 15
2.6 把代碼從客戶端發(fā)送到集群 18
2.7 用元組和case class 對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化 19
2.8 聚合 23
2.9 創(chuàng)建直方圖 24
2.10 連續(xù)變量的概要統(tǒng)計(jì) 25
2.11 為計(jì)算概要信息創(chuàng)建可重用的代碼 26
2.12 變量的選擇和評(píng)分簡(jiǎn)介 30
2.13 小結(jié) 31
第3 章 音樂(lè)推薦和Audioscrobbler 數(shù)據(jù)集 33
3.1 數(shù)據(jù)集 34
3.2 交替最小二乘推薦算法 35
3.3 準(zhǔn)備數(shù)據(jù) 37
3.4 構(gòu)建第一個(gè)模型 39
3.5 逐個(gè)檢查推薦結(jié)果 42
3.6 評(píng)價(jià)推薦質(zhì)量 43
3.7 計(jì)算AUC 44
3.8 選擇超參數(shù) 46
3.9 產(chǎn)生推薦 48
3.10 小結(jié) 49
第4 章  用決策樹(shù)算法預(yù)測(cè)森林植被 51
4.1 回歸簡(jiǎn)介 52
4.2 向量和特征 52
4.3 樣本訓(xùn)練 53
4.4 決策樹(shù)和決策森林 54
4.5 Covtype 數(shù)據(jù)集 56
4.6 準(zhǔn)備數(shù)據(jù) 57
4.7 第一棵決策樹(shù) 58
4.8 決策樹(shù)的超參數(shù) 62
4.9 決策樹(shù)調(diào)優(yōu) 63
4.10 重談?lì)悇e型特征 65
4.11 隨機(jī)決策森林 67
4.12 進(jìn)行預(yù)測(cè) 69
4.13 小結(jié) 69
第5 章 基于K 均值聚類的網(wǎng)絡(luò)流量異常檢測(cè) 71
5.1 異常檢測(cè) 72
5.2 K 均值聚類 72
5.3 網(wǎng)絡(luò)入侵 73
5.4 KDD Cup 1999 數(shù)據(jù)集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基于R 的可視化 79
5.8 特征的規(guī)范化 81
5.9 類別型變量 83
5.10 利用標(biāo)號(hào)的熵信息 84
5.11 聚類實(shí)戰(zhàn) 85
5.12 小結(jié) 86
第6 章 基于潛在語(yǔ)義分析算法分析維基百科 89
6.1 詞項(xiàng)- 文檔矩陣 90
6.2 獲取數(shù)據(jù) 91
6.3 分析和準(zhǔn)備數(shù)據(jù) 92
6.4 詞形歸并 93
6.5 計(jì)算TF-IDF 94
6.6 奇異值分解 97
6.7 找出重要的概念 98
6.8 基于低維近似的查詢和評(píng)分 101
6.9 詞項(xiàng)- 詞項(xiàng)相關(guān)度 102
6.10 文檔- 文檔相關(guān)度 103
6.11 詞項(xiàng)- 文檔相關(guān)度 105
6.12 多詞項(xiàng)查詢 106
6.13 小結(jié) 107
第7 章 用GraphX 分析伴生網(wǎng)絡(luò) 109
7.1 對(duì)MEDLINE 文獻(xiàn)引用索引的網(wǎng)絡(luò)分析 110
7.2 獲取數(shù)據(jù) 111
7.3 用Scala XML 工具解析XML 文檔 113
7.4 分析MeSH 主要主題及其伴生關(guān)系 114
7.5 用GraphX 來(lái)建立一個(gè)伴生網(wǎng)絡(luò) 116
7.6 理解網(wǎng)絡(luò)結(jié)構(gòu) 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過(guò)濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網(wǎng)絡(luò) 127
7.8.1 系和聚類系數(shù) 128
7.8.2 用Pregel 計(jì)算平均路徑長(zhǎng)度 129
7.9 小結(jié) 133
第8 章 紐約出租車軌跡的空間和時(shí)間數(shù)據(jù)分析 135
8.1 數(shù)據(jù)的獲取 136
8.2 基于Spark 的時(shí)間和空間數(shù)據(jù)分析 136
8.3 基于JodaTime 和NScalaTime 的時(shí)間數(shù)據(jù)處理 137
8.4 基于Esri Geometry API 和Spray 的地理空間數(shù)據(jù)處理 138
8.4.1 認(rèn)識(shí)Esri Geometry API 139
8.4.2 GeoJSON 簡(jiǎn)介 140
8.5 紐約市出租車客運(yùn)數(shù)據(jù)的預(yù)處理 142
8.5.1 大規(guī)模數(shù)據(jù)中的非法記錄處理 143
8.5.2 地理空間分析 147
8.6 基于Spark 的會(huì)話分析 149
8.7 小結(jié) 153
第9 章 基于蒙特卡羅模擬的金融風(fēng)險(xiǎn)評(píng)估 155
9.1 術(shù)語(yǔ) 156
9.2 VaR 計(jì)算方法 157
9.2.1 方差- 協(xié)方差法 157
9.2.2 歷史模擬法 157
9.2.3 蒙特卡羅模擬法 157
9.3 我們的模型 158
9.4 獲取數(shù)據(jù) 158
9.5 數(shù)據(jù)預(yù)處理 159
9.6 確定市場(chǎng)因素的權(quán)重 162
9.7 采樣 164
9.8 運(yùn)行試驗(yàn) 167
9.9 回報(bào)分布的可視化 170
9.10 結(jié)果的評(píng)估 171
9.11 小結(jié) 173
第10 章 基因數(shù)據(jù)分析和BDG 項(xiàng)目 175
10.1 分離存儲(chǔ)與模型 176
10.2 用ADAM CLI 導(dǎo)入基因?qū)W數(shù)據(jù) 178
10.3 從ENCODE 數(shù)據(jù)預(yù)測(cè)轉(zhuǎn)錄因子結(jié)合位點(diǎn) 185
10.4 查詢1000 Genomes 項(xiàng)目中的基因型 191
10.5 小結(jié) 193
第11 章 基于PySpark 和Thunder 的神經(jīng)圖像數(shù)據(jù)分析 195
11.1 PySpark 簡(jiǎn)介 196
11.2 Thunder 工具包概況和安裝 199
11.3 用Thunder 加載數(shù)據(jù) 200
11.4 用Thunder 對(duì)神經(jīng)元進(jìn)行分類 207
11.5 小結(jié) 211
附錄A Spark 進(jìn)階 213
附錄B 即將發(fā)布的MLlib Pipelines API 221
作者介紹 226
封面介紹 226

使用說(shuō)明

1、下載并解壓,得出pdf文件

2、如果打不開(kāi)本文件,請(qǐng)務(wù)必下載pdf閱讀器

3、安裝后,在打開(kāi)解壓得出的pdf文件

4、雙擊進(jìn)行閱讀

收起介紹展開(kāi)介紹
  • 下載地址
spark高級(jí)數(shù)據(jù)分析 pdf掃描版

有問(wèn)題? 點(diǎn)此報(bào)錯(cuò)

發(fā)表評(píng)論

0條評(píng)論

熱門推薦