目录
课程介绍
第 1 章,数据科学基本概念
- 数据科学基本概念
- 数据科学的定义和应用
- 数据处理的特点
- 数据科学工作流程和所需技能
- 数据科学学习路径和编程练习
- 职位分析
第 2 章,数据科学生命周期
- 介绍
- 数据科学生命周期
- 数据范围
- 控制变量
- 测量误差与方法
- 两种方案的比较
- 数据检查问题
第 3 章,职业工具与方法
- AI 编程环境
- Linux
- 命令行工具
- vi 文本编辑工具
- 文件的读入与查看
- Jupyter Notebook
- Python
- 简历练习
第 4 章,假设检验
- 随机抽样
- 假设检验
第 5 章,数据处理和分析
- 数据处理与分析
- Pandas 处理关系
- DataFrame 表格的格式
- 获取子集
- 聚合和变换
- 数据库原理
- SQL 数据处理
第 6 章,大数据处理基本概念
- 介绍
- 职位分析
- HDFS
- MapReduce
- 大数据系统结构
- 大数据生态
第 7 章,Spark
- Spark
- Spark 简介
- RDD 弹性分布式数据集
- RDD 操作示例
- DataFrame
第 9 章,大数据环境搭建和部署
- 环境设置
- SSH
- JAVA 环境配置
- Hadoop 实验
- 安装 Hadoop
- Hadoop 管理界面
- HDFS 操作
- Java MapReduce 实验
- Python MapReduce 实验
- Spark 实验
- Spark 安装
- PySpark 练习
- Spark Submit
- 技巧与方法
- 故障排查
- 看日志
- 问 AI
第 10 章,大数据系统
- 数据库
- Hive
- HBase
- 管理算法
- ZooKeeper
- 分布式一致性算法 Paxos
- 分布式资源分配
- 流式处理
- Kafka
- Flume
- Flink
后记