目录

课程介绍

第 1 章,数据科学基本概念

  1. 数据科学基本概念
  2. 数据科学的定义和应用
  3. 数据处理的特点
  4. 数据科学工作流程和所需技能
  5. 数据科学学习路径和编程练习
  6. 职位分析

第 2 章,数据科学生命周期

  1. 介绍
  2. 数据科学生命周期
  3. 数据范围
  4. 控制变量
  5. 测量误差与方法
  6. 两种方案的比较
  7. 数据检查问题

第 3 章,职业工具与方法

  1. AI 编程环境
  2. Linux
  3. 命令行工具
  4. vi 文本编辑工具
  5. 文件的读入与查看
  6. Jupyter Notebook
  7. Python
  8. 简历练习

第 4 章,假设检验

  1. 随机抽样
  2. 假设检验

第 5 章,数据处理和分析

  1. 数据处理与分析
  2. Pandas 处理关系
  3. DataFrame 表格的格式
  4. 获取子集
  5. 聚合和变换
  6. 数据库原理
  7. SQL 数据处理

第 6 章,大数据处理基本概念

  1. 介绍
  2. 职位分析
  3. HDFS
  4. MapReduce
  5. 大数据系统结构
  6. 大数据生态

第 7 章,Spark

  1. Spark
  2. Spark 简介
  3. RDD 弹性分布式数据集
  4. RDD 操作示例
  5. DataFrame

第 9 章,大数据环境搭建和部署

  1. 环境设置
    1. SSH
    2. JAVA 环境配置
  2. Hadoop 实验
    1. 安装 Hadoop
    2. Hadoop 管理界面
    3. HDFS 操作
    4. Java MapReduce 实验
    5. Python MapReduce 实验
  3. Spark 实验
    1. Spark 安装
    2. PySpark 练习
    3. Spark Submit
  4. 技巧与方法
    1. 故障排查
    2. 看日志
    3. 问 AI

第 10 章,大数据系统

  1. 数据库
    1. Hive
    2. HBase
  2. 管理算法
    1. ZooKeeper
    2. 分布式一致性算法 Paxos
    3. 分布式资源分配
  3. 流式处理
    1. Kafka
    2. Flume
    3. Flink

后记

Index Next