Spark快速大数据分析|在线阅读-高飞网
Spark快速大数据分析
 /  231
  • 目录
  • 推荐序 xi
  • 译者序 xiv
  • 序 xvi
  • 前言 xvii
  • 第1章 Spark数据分析导论 1
  • 1.1 Spark是什么 1
  • 1.2 一个大一统的软件栈 2
  • 1.3 Spark的用户和用途 4
  • 1.4 Spark简史 5
  • 1.5 Spark的版本和发布 6
  • 1.6 Spark的存储层次 6
  • 第2章 Spark下载与入门 7
  • 2.1 下载Spark 7
  • 2.2 Spark中Python和Scala的shell 9
  • 2.3 Spark 核心概念简介 12
  • 2.4 独立应用 14
  • 2.5 总结 19
  • 第3章 RDD编程 21
  • 3.1 RDD基础 21
  • 3.2 创建RDD 23
  • 3.3 RDD操作 24
  • 3.4 向Spark传递函数 27
  • 3.5 常见的转化操作和行动操作 30
  • 3.6 持久化( 缓存) 39
  • 3.7 总结 40
  • 第4章 键值对操作 41
  • 4.1 动机 41
  • 4.2 创建Pair RDD 42
  • 4.3 Pair RDD的转化操作 42
  • 4.4 Pair RDD的行动操作 52
  • 4.5 数据分区(进阶) 52
  • 4.6 总结 61
  • 第5章 数据读取与保存 63
  • 5.1 动机 63
  • 5.2 文件格式 64
  • 5.3 文件系统 78
  • 5.4 Spark SQL中的结构化数据 79
  • 5.5 数据库 81
  • 5.6 总结 86
  • 第6章 Spark编程进阶 87
  • 6.1 简介 87
  • 6.2 累加器 88
  • 6.3 广播变量 91
  • 6.4 基于分区进行操作 94
  • 6.5 与外部程序间的管道 96
  • 6.6 数值RDD 的操作 99
  • 6.7 总结 100
  • 第7章 在集群上运行Spark 101
  • 7.1 简介 101
  • 7.2 Spark运行时架构 101
  • 7.3 使用spark-submit 部署应用 105
  • 7.4 打包代码与依赖 107
  • 7.5 Spark应用内与应用间调度 111
  • 7.6 集群管理器 112
  • 7.7 选择合适的集群管理器 120
  • 7.8 总结 121
  • 第8章 Spark调优与调试 123
  • 8.1 使用SparkConf配置Spark 123
  • 8.2 Spark执行的组成部分:作业、...
  • 8.3 查找信息 131
  • 8.4 关键性能考量 135
  • 8.5 总结 139
  • 第9章 Spark SQL 141
  • 9.1 连接Spark SQL 142
  • 9.2 在应用中使用Spark SQL 144
  • 9.3 读取和存储数据 149
  • 9.4 JDBC/ODBC服务器 153
  • 9.5 用户自定义函数 156
  • 9.6 Spark SQL性能 158
  • 9.7 总结 159
  • 第10章 Spark Streaming 161
  • 10.1 一个简单的例子 162
  • 10.2 架构与抽象 164
  • 10.3 转化操作 167
  • 10.4 输出操作 173
  • 10.5 输入源 175
  • 10.6 24/7不间断运行 180
  • 10.7 Streaming用户界面 183
  • 10.8 性能考量 184
  • 10.9 总结 185
  • 第11章 基于MLlib的机器学习 187
  • 11.1 概述 187
  • 11.2 系统要求 188
  • 11.3 机器学习基础 189
  • 11.4 数据类型 192
  • 11.5 算法 194
  • 11.6 一些提示与性能考量 206
  • 11.7 流水线API 208
  • 11.8 总结 209
  • 作者简介 210
  • 封面介绍 210