Pandas 处理关系

我们使用 Pandas 处理数据表。重点介绍以下四种功能：

第一种是选择子集。一般来说，我们的数据会特别特别多。比如淘宝的数据，它可能有几百列。咱们可能就分析其中几列就行。那怎么把这几列选择出来？这是我们常干的一件事情，叫选择子集。

第二个是聚合。比如说我们想统计一下咱们班上男生有多少个？这就要聚合一下：把男生聚到一起，然后计数，统计一下。我们也经常要做这种工作，是吧？

第三个是 Join，就是我们要把多个表连到一起。比如我们有学生表，里面存着大家的年龄、性别、学号。还有这门课的选课表，里头存着大家的学号。为什么不存大家的姓名呢？因为你们的姓名还可能重复呢！但学号肯定是不会重复的。这时候如果我想要分析这门课的同学中女生的数目，是不是需要根据选课表里大家的学号，找到学生表中大家的性别，然后进行统计？这就需要把这两个表 Join 起来，联合分析。

最后一个是转换。我们表里存的内容，很可能并不是我们真正需要的。比如：我想统计一下我们班上，姓赵的同学有几个？但是我们的表里面存的是大家的名字。所以我就要把大家的名字里面的第一个字先挑出来，然后再统计。这时候就要做一些转换的工作。

上面四个工作，是我们工作中最常用的，所以我们重点介绍它们。

编程的秘诀是练习。大家觉得编程是什么？有的同学说：这个 Python 有这么多函数，每个函数有这么多用法，我就天天背，背英语单词似的，把它背熟，是不是就是高手了？不是这样的，对吧？高手的特点是：老板交给我们一个任务，要我们分析个啥，我们能又快又好地完成，是不是？所以我们背的东西，都只是基础。最重要的是要练。

每次课后的练习，才是这门课的精华，请大家一定要练。上课只是学习中很小很小的一小部分，最重要的是大家课后多练习。所以我们的课后练习比较多。大家做不完没关系的，量力而为就行了，因为大家基础不一样。

首先，我们来介绍 Pandas 的安装。Pandas 是 Python 的专门处理表格数据的库。把Python 装完之后，我们要通过 pip install pandas 单独装它。

然后，Pandas 是专门处理表格数据的。表格数据就是像 Excel 表那样的数据。大家在 Excel 表的操作中，是不是经常排序、筛选什么的？这些工作，在 Pandas 里，专门有一些函数来干这些事情，特别方便。

学会 Pandas 对我们后面学习大数据也非常有用。大数据编程中，我们会学 Spark。Spark 编程可以用三种语言：Java、Scala、Python。Spark 为了方便大家使用，尽量采用了 Pandas 的语法。这就是说，我们学会 Panda 以后，学大数据编程也特别方便。

Index