白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)pdf版是資深大數(shù)據(jù)專家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié)的一本書籍,由高揚(yáng),衛(wèi)崢和尹會(huì)生三人共同編著。本書以降低學(xué)習(xí)曲線和閱讀難度為宗旨,重點(diǎn)講解了統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級拓展技能,清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖。
作者通過通俗易懂的語言,結(jié)合大量案例與漫畫,將高度抽象的數(shù)學(xué)、算法與應(yīng)用,與現(xiàn)實(shí)生活中的案例和事件一一做了關(guān)聯(lián),將源自生活的抽象還原出來,幫助讀者理解后,又帶領(lǐng)大家將這些抽象的規(guī)律與算法應(yīng)用于實(shí)踐,貼合讀者需求,是系統(tǒng)學(xué)習(xí)大數(shù)據(jù)與機(jī)器學(xué)習(xí)的不二之選。
內(nèi)容介紹
資深大數(shù)據(jù)專家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖。
《白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)》共分18章。用通俗易懂的語言,結(jié)合大量案例與漫畫,不枯燥,實(shí)用、接地氣。
第1~5章,這部分是大數(shù)據(jù)入門所需的系統(tǒng)性知識,剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。
第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);
回歸(線性回歸、殘差分析、擬合相關(guān)問題);
聚類(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類,聚類的評估等);
分類(樸素貝葉斯、決策樹歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。
第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶畫像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營、評估、展現(xiàn)與變現(xiàn)場景層面進(jìn)行了解讀。
章節(jié)目錄
第1章大數(shù)據(jù)產(chǎn)業(yè)1
1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
1.2對大數(shù)據(jù)產(chǎn)業(yè)的理解2
1.3大數(shù)據(jù)人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環(huán)節(jié)和工具5
1.3.4門檻障礙6
1.4小結(jié)8
第2章步入數(shù)據(jù)之門9
2.1什么是數(shù)據(jù)9
2.2什么是信息10
2.3什么是算法12
2.4統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘13
2.5什么是商業(yè)智能13
2.6小結(jié)14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應(yīng)用示例18
3.2.1雙色球18
3.2.2購車搖號20
3.2.3德州撲克21
3.3小結(jié)25
第4章統(tǒng)計(jì)與分布27
4.1加和值、平均值和標(biāo)準(zhǔn)差27
4.1.1加和值28
4.1.2平均值29
4.1.3標(biāo)準(zhǔn)差30
4.2加權(quán)均值32
4.2.1混合物定價(jià)32
4.2.2決策權(quán)衡34
4.3眾數(shù)、中位數(shù)35
4.3.1眾數(shù)36
4.3.2中位數(shù)37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環(huán)比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結(jié)54
第5章指標(biāo)55
5.1什么是指標(biāo)55
5.2指標(biāo)化運(yùn)營58
5.2.1指標(biāo)的選擇58
5.2.2指標(biāo)體系的構(gòu)建62
5.3小結(jié)63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計(jì)算65
6.2.2信息量的理解66
6.3香農(nóng)公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結(jié)75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計(jì)算80
7.3數(shù)據(jù)立方體83
7.4上卷和下鉆85
7.5小結(jié)86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過擬合99
8.5欠擬合100
8.6曲線擬合轉(zhuǎn)化為線性擬合101
8.7小結(jié)104
第9章聚類105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點(diǎn)110
9.4層次聚類110
9.5密度聚類113
9.6聚類評估116
9.6.1聚類趨勢117
9.6.2簇?cái)?shù)確定119
9.6.3測定聚類質(zhì)量121
9.7小結(jié)124
第10章分類125
10.1樸素貝葉斯126
10.1.1天氣的預(yù)測128
10.1.2疾病的預(yù)測130
10.1.3小結(jié)132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續(xù)型變量137
10.3隨機(jī)森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機(jī)SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠(yuǎn)158
10.5.4N維度空間中的距離159
10.5.5超平面怎么畫160
10.5.6分不開怎么辦160
10.5.7示例163
10.5.8小結(jié)164
10.6遺傳算法164
10.6.1進(jìn)化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結(jié)181
第11章關(guān)聯(lián)分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經(jīng)典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關(guān)聯(lián)分析與相關(guān)性分析192
11.3稀有模式和負(fù)模式193
11.4小結(jié)194
第12章用戶畫像195
12.1標(biāo)簽195
12.2畫像的方法196
12.2.1結(jié)構(gòu)化標(biāo)簽196
12.2.2非結(jié)構(gòu)化標(biāo)簽198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底“像不像”204
12.4小結(jié)205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜索記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4優(yōu)化問題215
13.5小結(jié)217
第14章文本挖掘218
14.1文本挖掘的領(lǐng)域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持向量機(jī)SVM算法226
14.3小結(jié)227
第15章人工神經(jīng)網(wǎng)絡(luò)228
15.1人的神經(jīng)網(wǎng)絡(luò)228
15.1.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)229
15.1.2結(jié)構(gòu)模擬230
15.1.3訓(xùn)練與工作231
15.2FANN庫簡介233
15.3常見的神經(jīng)網(wǎng)絡(luò)235
15.4BP神經(jīng)網(wǎng)絡(luò)235
15.4.1結(jié)構(gòu)和原理236
15.4.2訓(xùn)練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機(jī)244
15.5.1退火模型244
15.5.2玻爾茲曼機(jī)245
15.6卷積神經(jīng)網(wǎng)絡(luò)247
15.6.1卷積248
15.6.2圖像識別249
15.7深度學(xué)習(xí)255
15.8小結(jié)256
第16章大數(shù)據(jù)框架簡介257
16.1著名的大數(shù)據(jù)框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經(jīng)典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計(jì)算WordCount271
16.4分布式列存儲(chǔ)框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什么那么快273
16.5.2安裝Presto274
16.6小結(jié)277
第17章系統(tǒng)架構(gòu)和調(diào)優(yōu)278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優(yōu)化279
17.1.2思路二:容器層面的優(yōu)化279
17.1.3思路三:存儲(chǔ)結(jié)構(gòu)層面的優(yōu)化280
17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
17.1.5資源不足281
17.2穩(wěn)定——資源的可用282
17.2.1借助云服務(wù)282
17.2.2鎖分散282
17.2.3排隊(duì)283
17.2.4謹(jǐn)防“雪崩”283
17.3小結(jié)285
第18章數(shù)據(jù)解讀與數(shù)據(jù)的價(jià)值286
18.1運(yùn)營指標(biāo)286
18.1.1互聯(lián)網(wǎng)類型公司常用指標(biāo)287
18.1.2注意事項(xiàng)288
18.2AB測試289
18.2.1網(wǎng)頁測試290
18.2.2方案測試290
18.2.3灰度發(fā)布292
18.2.4注意事項(xiàng)293
18.3數(shù)據(jù)可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數(shù)據(jù)的靈魂299
18.4.1多大算大299
18.4.2大數(shù)據(jù)網(wǎng)絡(luò)300
18.4.3去中心化才能活躍301
18.4.4數(shù)據(jù)會(huì)過剩嗎302
18.5數(shù)據(jù)變現(xiàn)的場景303
18.5.1數(shù)據(jù)價(jià)值的衡量的討論303
18.5.2場景1:征信數(shù)據(jù)307
18.5.3場景2:宏觀數(shù)據(jù)308
18.5.4場景3:畫像數(shù)據(jù)309
18.6小結(jié)310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機(jī)的安裝方法314
附錄CPython語言簡介318
附錄DScikit-learn庫簡介323
附錄EFANNforPython安裝324
附錄F群眾眼中的大數(shù)據(jù)325
寫作花絮327
參考文獻(xiàn)329
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 得間免費(fèi)小說電腦版 v5.3.0.372.58M / 簡體中文
- 開源閱讀電腦版 v3.2517.96M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡體中文
- 吉利博瑞用戶手冊 pdf高清版57.89M / 簡體中文
- 未公開的Oracle數(shù)據(jù)庫秘密 迪貝斯pdf掃描版34.69M / 簡體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文
- 本草綱目 5.34M / 簡體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡體中文