大数据技术基础及应用

陈一帅

yschen@bjtu.edu.cn

北京交通大学电子信息工程学院网络智能实验室

2dmark

A 课程信息

B 课程材料

一、大数据的信息基础设施

从计算、存储和网络的基础设施的演进,引出驱动大数据发展的底层物理技术因素。

  1. 简介:网页PDFLab 1 云计算平台调研
  2. 存储模型:网页PDF
  3. 计算虚拟化:网页PDFLab 2 微服务系统开发入门

二、大数据编程模型和使用技巧

本节介绍大数据技术平台的编程模型和使用技巧。要求学生进行 Mapreduce、SQL 类查询、Spark的编程实践。要求学生通过实践编程理解大数据计算模型和实际编程技术,为后面的分析打下基础。

  1. Hadoop/YARN:网页PDF
  2. Spark:网页PDFLab 3 Spark编程入门
  3. 流式计算:网页PDFLab 4 双十一电商销售实时分析

三、数据处理

  1. 数据清洗
  2. 数据探索
  3. 降维
  4. 单变量估计
  5. 线性回归
    1. Lab 5 父子身高相关吗?
    2. Lab 7 Spark 白酒质量模型

C 参考材料

陈一帅,机器学习算法:原理与应用