大数据处理基本概念

本节介绍大数据处理的基本概念。

我们首先介绍 Hadoop 分布式文件存储(HDFS)。它把大数据文件分成小块,这样就可以实现并行访问,提高访问速度;然后,它对每个小块都在多个机器上存储多个副本,这样就可以实现容错。

我们然后介绍 MapReduce 分布式计算模型。它能够实现大数据的分布式处理。我们介绍它的原理和使用。利用 MapReduce,我们可以在计算机集群上,进行并行处理。我们然后介绍一个具体的 MapReduce 代码。它基于 Python mrjob Map Reduce 库,对用户电影评分数据进行操作,统计电影的用户打分数。

有了分布式存储和计算的概念之后,我们介绍整个大数据系统的基本架构。因为网络开销是影响大数据系统性能的主要开销,所以我们简单介绍一下支持大数据系统的数据中心网络。还介绍一下数据中心网络中将不同用户的网络隔离的手段,即网络虚拟化技术:VLAN。

我们最后介绍基于 Hadoop 的整个大数据生态平台,包括 HDFS 分布式存储、MapReduce 分布式计算、YARN 集群资源管理、Spark(一种比 Hadoop 更快的MapReduce分布式计算平台)、HBase(分布式 NoSQL 数据库)、Storm(流式处理)、Kafka( 消息订阅)、Flume(数据采集)、ZooKeeper(集群管理)等。

学完这一节后,我们基于大数据的数据科学的技术现状就会有一个基本的了解,从而打开大数据数据科学的大门。

参考课程


Index Next