大数据处理基本概念

本节介绍大数据处理的基本概念。

我们首先介绍 Hadoop 分布式文件存储（HDFS）。它把大数据文件分成小块，这样就可以实现并行访问，提高访问速度；然后，它对每个小块都在多个机器上存储多个副本，这样就可以实现容错。

我们然后介绍 MapReduce 分布式计算模型。它能够实现大数据的分布式处理。我们介绍它的原理和使用。利用 MapReduce，我们可以在计算机集群上，进行并行处理。我们然后介绍一个具体的 MapReduce 代码。它基于 Python mrjob Map Reduce 库，对用户电影评分数据进行操作，统计电影的用户打分数。

有了分布式存储和计算的概念之后，我们介绍整个大数据系统的基本架构。因为网络开销是影响大数据系统性能的主要开销，所以我们简单介绍一下支持大数据系统的数据中心网络。还介绍一下数据中心网络中将不同用户的网络隔离的手段，即网络虚拟化技术：VLAN。

我们最后介绍基于 Hadoop 的整个大数据生态平台，包括 HDFS 分布式存储、MapReduce 分布式计算、YARN 集群资源管理、Spark（一种比 Hadoop 更快的MapReduce分布式计算平台）、HBase（分布式 NoSQL 数据库）、Storm（流式处理）、Kafka（消息订阅）、Flume（数据采集）、ZooKeeper（集群管理）等。

学完这一节后，我们基于大数据的数据科学的技术现状就会有一个基本的了解，从而打开大数据数据科学的大门。

参考课程

大数据技术基础及应用

Index