欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 财经 > 产业 > 大数据技术原理与应用

大数据技术原理与应用

2024/10/25 3:21:36 来源：https://blog.csdn.net/m0_74161592/article/details/142352169 浏览: 次关键词：大数据技术原理与应用

第一章、大数据概述

1、大数据时代的特征，并结合生活实例谈谈带来的影响。

（一）特征

1、Volume 规模性：数据量大。

2、Velocity高速性：处理速度快。数据的生成和响应快

摩尔定律：每两年，数据量增加一倍

1秒定律：响应时间时间控制在1秒以内

3、Variety多样化：数据种类繁多。

大数据是由结构化、非结构化、半结构化数据组成的，结构化数据仅占10%左右；非结构化数据，它们与人类信息密切相关；

4、Value价值性：价值密度低。

价值密度低，商业价值高；

通过各类大量数据中挖掘有价值的信息；

5、Veracity真实性

真实有效，为个性化推荐和精准营销提供了保证；

（二）、大数据的影响

1、科学研究
2、思维方式——全样非抽样，效率非精确，相关性
3、改变人们的生活方式——安全监测、智能交通、股票分析、疫情监测
4、带动相关的大数据产业诞生和发展
5、人才培养和就业
2、大数据时代的思维方式的特征。

‌整体性‌：大数据思维强调整体性，能够更高效地完成复杂的数据统计和分析。

‌互联性‌：大数据思维具有量化互联的特征，通过信息全面定量采集和互通，打通信息间隔阂。

‌价值性‌：大数据思维具有价值化特征，能够渗透至各个领域及行业的不同维度。

‌创新性‌：大数据分析技术为获取事物之间的相关关系提供了极大的便利，使“预测”成为大数据最核心的价值。

3、大数据关键技术

数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。

大数据两大核心关键技术：分布式存储+分布式处理

4、大数据计算模式

5、简述大数据、云计算、物联网的概念以及之间的关系。

、大数据：指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合；
云计算：实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源
物联网：物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起，形成人与物、物与物相联，实现信息化和远程管理控制

4.关系：

第二章、大数据处理架构Hadoop

1、Hadoop概述

Hadoop是一个能够对大量数据进行分布式存储和处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的。

2、Hadoop的核心

HDFS是分布式文件存储系统(Hadoop Distributed File System) 、也是Hadoop的核心。

3、Hadoop特性

高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上支持多种编程语言。

4、Hadoop项目结构

5、Hadoop的安装与使用

第三章、分布式文件系统HDFS

1、HDFS

（1）HDFS概念

HDFS（Hadoop Distributed File System）为Hadoop中的用于存储和处理海量数据的分布式文件系统，支持流式数据访问、存储和处理超大文件，并运行于廉价的普通机器组成的服务器集群上。

（2）存储物理机结构-集群

分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群

（3）分布式文件系统的体系结构

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类：

1、“主节点”(Master Node)或称“名称结点”(NameNode)：

负责文件操作的执行，管理数据节点和文件块的映射关系

2、“从节点”（Slave Node）或称“数据节点”(DataNode)：

负责数据的读写和存储

1）数据存储

2）数据块

1、定义：Block，HDFS默认一个块大小是128MB，一个文件被分成多个块，以块作为存储单位。

2、HDFS使用数据块的好处：

支持大规模文件存储：按块分发到各个计算机结点
简化系统设计：固定块大小简化了存储管理和元数据管理
适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性

3）nameNode的数据结构

nameNode负责管理分布式文件系统的命名空间Namespace，保存了两个核心数据结构：

1、FsImage：维护文件和文件夹的元数据，包含文件的复制等级、访问权限、块大小以及组成文件的块等，一般是GB以上。

2、EditLog：记录了所有针对文件的创建、删除、重命名等操作

4）nameNode的使用

启动：将FsImage文件中的内容加载到内存中，之后再执行EditLog（只读）操作
更新：更新FsImage文件并创建一个新的空白EditLog
正常运行态：（读写）文件系统更新操作先写入到EditLog，而不是直接写入、更新FsImage

名称节点运行期间EditLog不断变大的问题会导致名称节点重启时缓慢

5）SecondaryNameNode

用来保存NameNode中对HDFS元数据信息的备份，并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台机器上
作用：
EditLog和FsImage的合并操作；缩小EditLog；也成为名称节点的〝检查点〞

6）DataNode

负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。

每个数据节点中的数据会被保存在各自节点对应的文件系统中。

2、HDFS存储原理

1）数据写入

第一个副本：放置在上传文件的数据节点；如果是集群外提交，则随机挑选一台磁盘不太满、CPU不太忙的节点
第二个副本：放置在与第一个副本不同的机架的节点上
第三个副本：与第一个副本相同机架的
其他节点上更多副本：随机节点

2）数据复制

1、流水线复制
2、过程：
（1）文件写入本地，分为多个块
（2）针对每一个块：

向名称节点发出写请求，返回一个数据节点列表；
把数据写入第一个数据节点中，同时传递列表；
第一个数据节点接受并写入本地，向第二个数据节点发出连接请求，并传递接受的数据和列表；
第二个数据节点执行上一步操作，依次循环，直到完成所有副本的复制；

3、冗余存储的优势： 1、加快读数据时的传输速度； 2、容易检查数据传输错误；3、保证数据可靠性

3）数据读取

从名称节点获得数据块不同副本的存放位置列表；
列表中包含了副本所在的数据节点，可以调用API来确定客户端和这些数据节点所属的机架ID；
当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时，就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据

4）数据错误和恢复

3、HDFS编程实践

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

数组的【合并区间】问题具体思路（附完整代码）南京观海微电子---图解晶体二极管电路分析法 Python 操作二进制文件写给1024的你我他-100x developer Linux内核 -- `dynamic_debug` 使用指南 python 字典删除某个键