hadoop是最开始的大数据的框架,可以说是大数据最开始的代名词, 主要有hdfs 分布式文件系统和 yarn 资源调度系统组成, 编写MapReduce模型执行任务, 基于磁盘运算, 速度较慢不灵活。
hive最开始是基于MapReduce的, 就是将SQL翻译成MapReduce来执行, 之后抛弃了MapReduce, 改成了 Hive on spark, 使用spark 作为执行引擎。
spark是基于内存的分布式计算系统, 在极端的情况下某些运算可以超过hadoop百倍效率之上, 但是比较依赖硬件, 比hadoop更灵活。