大数据技术基础及应用
陈一帅
yschen@bjtu.edu.cn
北京交通大学电子信息工程学院网络智能实验室
A 课程信息
B 课程材料
一、大数据的信息基础设施
从计算、存储和网络的基础设施的演进,引出驱动大数据发展的底层物理技术因素。
-
简介:网页,PDF,Lab 1 云计算平台调研
-
存储模型:网页,PDF
-
计算虚拟化:网页,PDF,Lab 2 微服务系统开发入门
二、大数据编程模型和使用技巧
本节介绍大数据技术平台的编程模型和使用技巧。要求学生进行 Mapreduce、SQL
类查询、Spark的编程实践。要求学生通过实践编程理解大数据计算模型和实际编程技术,为后面的分析打下基础。
-
Hadoop/YARN:网页,PDF
-
Spark:网页,PDF,Lab 3 Spark编程入门
-
流式计算:网页,PDF,Lab 4 双十一电商销售实时分析
三、数据处理
- 数据清洗
- 数据探索
- 降维
- 单变量估计
- 线性回归
- Lab 5 父子身高相关吗?
- Lab 7 Spark 白酒质量模型
C 参考材料
陈一帅,机器学习算法:原理与应用