Spark快速大数据分析-3.2 创建RDD - 高飞网

3.2 创建RDD

——spark中的RDD

2018-02-10 18:02:06.0

RDD即弹形分布式数据集

一.创建RDD有两种方式

1.将程序中一个已有的集合传个SparkContext的parallelize()方法

2.从外部存储中读取数据来创建RDD

二.RDD操作

分为转换操作和计算操作

1.转换操作:从已有的返回新的RDD操作,转化出来的RDD是惰性求值的,只有在行动操作中用到这戏额RDD时才会被计算。通常返回类型为RDD

2.行动操作:行动操作是第二种类型的RDD操作,它们会把最终求得的结果返回到驱动器程序,或者写入外部存储系统中。有用户行动操作血药生成实际的输出,他们会强制执行那些求职必须用到的RDD的转化操作。