欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 家装 > Hadoop的三大结构及其作用

Hadoop的三大结构及其作用

2025/4/20 12:17:36 来源:https://blog.csdn.net/lhhongbi/article/details/147333297  浏览:    关键词:Hadoop的三大结构及其作用

Hadoop 的三大核心结构及其作用如下:

1. 分布式文件系统(HDFS,Hadoop Distributed File System)

作用

  • 海量数据存储:提供高吞吐量、高容错性的分布式存储能力,支持存储 TB/PB 级的大规模数据集。
  • 硬件容错:通过数据分块(默认 128MB / 块)和多副本机制(默认 3 副本),确保数据在节点故障时不丢失。
  • 流式数据访问:优化 “一次写入、多次读取” 场景,适合大数据批处理任务。
  • 可扩展性:支持横向扩展,通过添加廉价服务器节点扩展集群存储和计算能力。

2. 分布式计算框架(MapReduce)

作用

  • 并行计算模型:将大规模数据处理任务分解为 Map(映射) 和 Reduce(归约) 两个阶段,实现分布式并行计算。
  • 简化开发:开发者只需关注业务逻辑(Map 和 Reduce 函数),框架自动处理任务调度、容错、负载均衡等底层细节。
  • 批量处理优化:适合离线批处理场景(如日志分析、数据清洗),但对实时计算和交互式查询支持较弱(后续衍生出 Spark 等框架)。

3. 资源管理系统(YARN,Yet Another Resource Negotiator)

作用

  • 集群资源调度:统一管理 Hadoop 集群的计算资源(CPU、内存等),支持多计算框架(如 MapReduce、Spark、Flink)共享集群。
  • 任务管理:通过 ResourceManager(RM) 分配资源,NodeManager(NM) 管理节点,ApplicationMaster(AM) 协调应用程序运行,提高资源利用率和任务并行度。
  • 框架兼容性:作为 Hadoop 2.0 引入的核心组件,解决了早期 MapReduce 1.0 资源调度与计算逻辑耦合的问题,使集群更灵活通用

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词