数据科学基本概念

本节首先介绍数据科学的工作内容、它在我们的工作生活中的应用(如交通、工厂、政府、金融、安防)、最新的各行各业都需要数据科学技能的就业趋势、数据科学的科学性。

然后介绍大数据的四个特点:Volume、Variety(类型繁多)、Velocity、Value(价值密度低),以及这些特点带给数据科学工作的挑战,并特别介绍大数据处理的特点。

我们然后具体介绍数据科学的工作流(采集、存储、分析和应用)和相关技能。这包括商业上的产品开发,技术上的机器学习、大数据,数学方面的优化、贝叶斯,编程方面的Python、Spark、R,统计方面的可视化、时间统计、统计。并介绍对应的两种职业方向:工程技术和数据分析。

我们然后介绍数据科学的学习路径和一套编程练习。这个路径包括基础、大数据、分析、统计、机器学习、编程和工具。这套编程练习来自杜克大学,涵盖 Python 基础、机器学习、深度学习、Spark 大数据编程。非常优秀。

最后介绍基本的命令行工具,如 ls、cd、cp、rm、vi,以及 SQL。我们首先介绍表格数据的基本特点,然后介绍基本的 SQL 概念,包括 select,group by,order by,join 等概念。


Index Next