Spark快速大数据分析(中文版) PDF 高清电子书 免费下载 完整版 在线阅读- 高飞网
Spark快速大数据分析

Spark快速大数据分析

中文版
(美)卡劳(Karau,H.) 等著,王道远 译
Spark 大数据 数据分析
浏览人数:667 在读人数:23
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具――Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

目录   
推荐序 xi   
译者序 xiv   
序 xvi   
前言 xvii   
第1章 Spark数据分析导论 1   
1.1 Spark是什么 1   
1.2 一个大一统的软件栈 2   
1.3 Spark的用户和用途 4   
1.4 Spark简史 5   
1.5 Spark的版本和发布 6   
1.6 Spark的存储层次 6   
第2章 Spark下载与入门 7   
2.1 下载Spark 7   
2.2 Spark中Python和Scala的shell 9   
2.3 Spark 核心概念简介 12   
2.4 独立应用 14   
2.5 总结 19   
第3章 RDD编程 21   
3.1 RDD基础 21   
3.2 创建RDD 23    1
3.3 RDD操作 24   
3.4 向Spark传递函数 27   
3.5 常见的转化操作和行动操作 30   
3.6 持久化( 缓存) 39   
3.7 总结 40   
第4章 键值对操作 41   
4.1 动机 41   
4.2 创建Pair RDD 42   
4.3 Pair RDD的转化操作 42   
4.4 Pair RDD的行动操作 52   
4.5 数据分区(进阶) 52   
4.6 总结 61   
第5章 数据读取与保存 63   
5.1 动机 63   
5.2 文件格式 64   
5.3 文件系统 78   
5.4 Spark SQL中的结构化数据 79   
5.5 数据库 81   
5.6 总结 86   
第6章 Spark编程进阶 87   
6.1 简介 87   
6.2 累加器 88   
6.3 广播变量 91   
6.4 基于分区进行操作 94   
6.5 与外部程序间的管道 96   
6.6 数值RDD 的操作 99   
6.7 总结 100   
第7章 在集群上运行Spark 101   
7.1 简介 101   
7.2 Spark运行时架构 101   
7.3 使用spark-submit 部署应用 105   
7.4 打包代码与依赖 107   
7.5 Spark应用内与应用间调度 111   
7.6 集群管理器 112   
7.7 选择合适的集群管理器 120   
7.8 总结 121   
第8章 Spark调优与调试 123   
8.1 使用SparkConf配置Spark 123   
8.2 Spark执行的组成部分:作业、任务和步骤 127   
8.3 查找信息 131   
8.4 关键性能考量 135   
8.5 总结 139   
第9章 Spark SQL 141   
9.1 连接Spark SQL 142   
9.2 在应用中使用Spark SQL 144   
9.3 读取和存储数据 149   
9.4 JDBC/ODBC服务器 153   
9.5 用户自定义函数 156   
9.6 Spark SQL性能 158   
9.7 总结 159   
第10章 Spark Streaming 161   
10.1 一个简单的例子 162   
10.2 架构与抽象 164   
10.3 转化操作 167   
10.4 输出操作 173   
10.5 输入源 175   
10.6 24/7不间断运行 180   
10.7 Streaming用户界面 183   
10.8 性能考量 184   
10.9 总结 185   
第11章 基于MLlib的机器学习 187   
11.1 概述 187   
11.2 系统要求 188   
11.3 机器学习基础 189   
11.4 数据类型 192   
11.5 算法 194   
11.6 一些提示与性能考量 206   
11.7 流水线API 208   
11.8 总结 209   
作者简介 210   
封面介绍 210   
看过本书的人还看过