Hadoop，Hive，Spark 之间是什么关系

2024-12-26 02:56:35

推荐回答（1个）

回答1：

hadoop是最开始的大数据的框架，可以说是大数据最开始的代名词，主要有hdfs 分布式文件系统和 yarn 资源调度系统组成，编写MapReduce模型执行任务，基于磁盘运算，速度较慢不灵活。
hive最开始是基于MapReduce的，就是将SQL翻译成MapReduce来执行，之后抛弃了MapReduce，改成了 Hive on spark，使用spark 作为执行引擎。
spark是基于内存的分布式计算系统，在极端的情况下某些运算可以超过hadoop百倍效率之上，但是比较依赖硬件，比hadoop更灵活。