你说的应该是大数据平台中的主流框架,我列举一下:
(一)Hadoop生态圈
HDFS:分布式文件系统,解决大数据的存储
Yarn(MapReduce):分布式计算框架,解决大数据的计算
Hive:Hadoop中的数据分析引擎,支持SQL
HBase:基于HDFS的NoSQL数据库
ZooKeeper:分布式协调服务,可以用于实现HA(高可用架构)
其他
(二)Spark生态圈
Spark Core:Spark的核心,用于离线计算
Spark SQL:Spark的数据分析引擎,支持SQL语句
Spark Streaming:Spark的流式计算引擎,但本质依然是离线计算
MLlib:机器学习框架
(三)Flink生态圈
Flink DataSet:Flink批处理(离线计算)API
Flink DataStream:Flink流处理(实时计算)API
Flink Table&SQL:Flink的数据分析引擎,支持SQL语句
MLlib:机器学习框架