Spark-Hadoop,Hive,Spark 之间是什么关系

2024-12-25 22:49:41
推荐回答(1个)
回答1:

spark是一种分布式内存计算模型
hadoop是一种大数据分布式处理方案,包括hdfs(分布式存储系统),mapreduce(分布式计算框架),yarn(资源调度系统)
hive是基于hadoop的一个数据仓库,构建成类似传统关系型数据库。能够用sql执行mr任务
spark与hadoop关系,spark是内存计算框架,意味着他主要是用来进行计算,用来取代hadoop的mapreduce任务效率太低。但是计算结果,数据源,最终还是存在hadoop上的