spark 真比 mr on hadoop 快吗

最近在调研spark准备在部门的数据平台上使用spark替换原有的mr。遇到的几个问题解决记录下。
spark相对于传统MR工作流的特色:

查询的管道式执行
没有中间数据会持久化
对表的页数据进行LRU缓存

Spark 真比 mr on hadoop 快吗?

一些对于spark和hadoop不太了解的同学可能会觉得spark和hadoop非此即彼，还有同学问过我spark是基于内存的技术，为什么不直接用spark替换hadoop。
我们处理数据都是会把数据读取到内存上进行操作，而无法直接操作硬盘进行数据的逻辑计算，所谓的spark基于内存的计算只是

spark的shuffle操作内存中进行一次而不用像mr那样还要经过一次硬盘。
相比传统的MR工作流中每个job在迭代时都会讲数据存入HDFS，而Spark支持DGA和管道操作，这样就可以让我们执行复杂的工作流而不用将中间数据持久化(除非要进行shuffle)。

Spark的核心“shuffle”会将数据写入磁盘中，如果我们在我们的Spark SQL语句中使用了group by语句或者我们刚刚讲RDD转换为PairRDD并且通过键来调用聚合操作，那么我们正在强制Spark将数据根据key的哈希值分发到各个数据节点。Shuffle处理包含两个阶段，就是通常所说的“map”和“reduce”：“map”阶段仅仅计算key的哈希值(或者是自定义的其他分割函数)并将结果输出N个单独的文件到本地磁盘上，其中N就是“reudce”端的分区数；“Reduce”端拉取“map”端的计算结果并将其合并新的分区，因此如果我们的RDD有M个分区，则我们将它转换为一对RDD时会在集群中生成M*N个文件，这些文件包含RDD中的所有数据；有一些优化手段可以减少生成的文件数量；此外还有一些工作来预排序这些文件并且在“reduce”端“合并”这些文件，但这并不能改变如果我们想要处理数据就得将数据放入HDD的事实。
所以，Spark并不是一项基于内存的技术。这是一项可以让我们有效的利用基于内存的LRU方法在内存存满时将数据卸载至硬盘中；而且它没有内置持久化功能(内存、硬盘都没有)，它会在shuffle过程中将所有数据放到本地文件系统中。

Spark 真比 mr on hadoop 快吗?

参考资料: