大数据需要学习什么框架,什么生态圈?

2025-03-11 01:28:18
推荐回答(1个)
回答1:

你说的应该是大数据平台中的主流框架,我列举一下:

    (一)Hadoop生态圈

  • HDFS:分布式文件系统,解决大数据的存储

  • Yarn(MapReduce):分布式计算框架,解决大数据的计算

  • Hive:Hadoop中的数据分析引擎,支持SQL

  • HBase:基于HDFS的NoSQL数据库

  • ZooKeeper:分布式协调服务,可以用于实现HA(高可用架构)

  • 其他

  • (二)Spark生态圈

  • Spark Core:Spark的核心,用于离线计算

  • Spark SQL:Spark的数据分析引擎,支持SQL语句

  • Spark Streaming:Spark的流式计算引擎,但本质依然是离线计算

  • MLlib:机器学习框架

  • (三)Flink生态圈

  • Flink DataSet:Flink批处理(离线计算)API

  • Flink DataStream:Flink流处理(实时计算)API

  • Flink Table&SQL:Flink的数据分析引擎,支持SQL语句

  • MLlib:机器学习框架