Spark技术内幕 PDF 高清电子书 免费下载 完整版 在线阅读- 高飞网
现在已经01点44分了,请注意休息
Spark技术内幕

Spark技术内幕

张安站
Spark
浏览人数:178 在读人数:1
读者:  
    Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,提供了AllinOne的统一解决方案,使得Spark极具竞争力。    本书以源码为基础,深入分析Spark内核的设计理念和架构实现,系统讲解各个核心模块的实现,为性能调优、二次开发和系统运维提供理论支持;本文最后以项目实战的方式,系统讲解生产环境下Spark应用的开发、部署和性能调优。

序   
前言    2
第1章 Spark简介1   
1.1Spark的技术背景1   
1.2Spark的优点2   
1.3Spark架构综述4   
1.4Spark核心组件概述5   
1.5Spark的整体代码结构规模8   
第2章 Spark学习环境的搭建9   
2.1源码的获取与编译9   
2.2构建Spark的源码阅读环境11   
2.3小结15   
第3章 RDD实现详解16   
3.1概述16   
3.2什么是RDD17   
3.3RDD的转换和DAG的生成25   
3.4RDD的计算33   
3.5RDD的容错机制39   
3.6小结40   
第4章 Scheduler 模块详解41   
4.1模块概述41   
4.2DAGScheduler实现详解45   
4.3任务调度实现详解57   
4.4Word Count调度计算过程详解72   
4.5小结74   
第5章 Deploy模块详解76   
5.1 Spark运行模式概述76   
5.2模块整体架构86   
5.3消息传递机制详解87   
5.4集群的启动92   
5.5集群容错处理98   
5.6Master HA实现详解102   
5.7小结110   
第6章 Executor模块详解112   
6.1Standalone模式的Executor分配详解113   
6.2Task的执行122   
6.3 参数设置131   
6.4小结133   
第7章 Shuffle模块详解134   
7.1Hash Based Shuffle Write135   
7.2Shuffle Pluggable 框架141   
7.3Sort Based Write144   
7.4Shuffle Map Task运算结果的处理148   
7.5Shuffle Read152   
7.6性能调优160   
7.7小结165   
第8章 Storage模块详解167   
8.1模块整体架构167   
8.2存储实现详解181   
8.3性能调优194   
8.4小结195   
第9章 企业应用概述197   
9.1Spark在百度197   
9.2Spark在阿里200   
9.3Spark在腾讯200   
9.4小结201   
看过本书的人还看过