同学荐书:大数据

北京交通大学,研究生同学,2023 年探索图书馆成果

徐泽靖

从零开始学Hadoop大数据分析(视频教学版)

从这本书中能够学到

书中介绍了Hadoop生态环境的各个组件,如HDFS、MapReduce的作用以及角色。还介绍Spark Core的基础使用,以及环境搭建,详细说明了如何搭建Hadoop集群,包括安装和配置。但是没有深入分析原理,更着重于介绍使用,实操内容比较多。

后面几章进行了一些案例的分析,其中有个关于电信流失识别的案例,描述了一个经典数据挖掘的流程,把介绍过的组件串了起来,可惜最后案例分析的时候没有相应的视频讲解。书中介绍到企业在使用Hadoop时,维护成本要高于搭建成本,对于不会编程有需要获取系统数据的情况,Hadoop生态圈也有Hive组件支持。也可以由Hadoop运维人员利用sqoop组件讲HDFS中的数据输出至关系型数据库。

建议阅读理由

这是一本带着视频讲解的书,相较于Hadoop权威指南这种超级硬核的工具书,这本书更适合作为Hadoop架构的入门书籍来看。而且带着视频讲解有利于初学者在初始阶段建立正确的概念认知。

这本书很轻薄,不像砖头丧失兴趣,还可以快速了解大数据各个组件的作用、简单配置。除了项目没有配套视频,基本上各个组件都有配套视频,对初学者安装是非常友好的。注重还附带了配套代码,这样比单讲原理的书好得多,毕竟以后都要进行实操,工作的时候还是需要coding的能力的。但是书中在涉及到要进行数据处理的项目,由于隐私保护,就没有原始数据集。

不足之处

书中在实践项目部分没有项目视频,而且最后两个项目有点太简略了,不是说项目本身简略,而是很多细节没交代清楚,比如mahout一笔带过。

还有因为书本身轻薄,所以在很多内容上是不详细的,所以还是建议搭配hadoop权威指南第四版一起了解组件的原理等。

潘茂林

《数据可视化陷阱》

作者简介

Alberto Cairo是一名记者和设计师,拥有在多个国家多年领导图形和可视化团队的经验。他于2012年1月加入迈阿密大学传播学院,教授信息图表和数据可视化课程,目前在迈阿密大学数据科学与计算研究所中的可视化、数据通信与信息设计中心担任主任一职。

比较广为人知的是,他曾经制造了12组数据,数据的均值、方差、相关系数都一样,以这些数据进行可视化的话,人们将不会发现任何异常。但是,实际的数据分布其实大不相同(DataSaurus 数据集)

这提醒我们,有意地通过不同的方式对数据进行可视化,能够轻易地得到自己想要得到的结果,我们需要学习如何辨别可视化对数据造成的影响,并从中看出数据的真实面貌。

Alberto Cairo 被微软描述为“视觉新闻的先锋”。他在2019年出版《数据可视化陷阱》(原名:How Charts Lie: Getting Smarter about Visual Information),本书于2020年由韦思遥翻译出版。

内容简介

作者通过美国大选中民主党与共和党的宣传图作为引入,向读者问出一个问题:为什么两边看起来都是优势呢?双方都没有撒谎,只是展示数据的角度与处理数据的方式不同。我们需要学习如何避免无意间对数据的错误展示,也能由此来分辨那些被“精心设计”过的数据图形。

正文部分,作者首先介绍了数据可视化的原理,虽然最初的一些数据可视化的例子在现在看来显得幼稚简单,但也使得我们能够学习到最初数据可视化的目的,即让人一眼就能看出数据中体现的信息。

接下来,作者通过五个方面,分别讲解了图表中的陷阱。

陷阱之一是糟糕的设计。糟糕的设计会导致数据的展示不全面或没有价值,甚至掩盖真实的数据变化趋势。相反地,在进行数据可视化之前对图表的类型、刻度以及图例进行挑选,能够更清晰地展示数据情况。

陷阱之二是展现不可靠的数据。“输入垃圾,输出必为垃圾”(Garbage in garbage out),这是程序员、统计学家和科学家中常说的一句话。在图表中这个道理也同样适用:如果图表引用的数据都是错的,那它再精美也没用。“那些符合我们根深蒂固的信念的图表,对我们产生误导的可能性最高。”

陷阱之三是提供片面的数据。虚假或不可靠的数据可能比较容易识破,那么从真实的数据中精挑细选出的部分数据,可能就能够瞒过你的眼睛。除此之外,还可以使用大量数据来填充图表,使读者无法分辨结论的真伪。在数据可视化的过程中,既需要展示细节,也不能掩盖了真实的情况。

陷阱之四是隐藏或混淆不确定性。生活中会遇到很多调查性或预测性的数据,如谁会在投票中胜出、台风移动路线或者股票的走势。这些预测并不能保证百分百的准确 ,但是“数据意味着权威。但是权威会引发确信,确信又会滋生盲目的傲慢。”在图表中展现预测结论的可靠程度尤为关键。

陷阱之五是暗示具有误导性的规律。两个并没有关联的事物在图表中可能显得息息相关,人们很容易得出类似于“太阳升起是因为公鸡打鸣”的愚蠢观点。能强行建立联系就能掩饰联系,比如著名的吸烟无害论。

最后,作者呼吁大家去评估公开分享的信息是否看/听上去正确,这么做是为了保护我们的信息生态系统和公共话语的质量。只有这样我们才不会成为错误信息和虚假信息这类顽疾的缔造者,我们才能成为社会免疫系统的一部分。

特色与亮点

本书是一本数据分析与可视化方面的入门科普读物,对于之前从未接触过这方面但感兴趣的读者来说很容易阅读。

作者在书中引用了大量的案例,且都是近代比较火热的话题。看着作者使用专业知识将你从图中得到的结论一个个驳倒的时候,会有一种恍然大悟的感觉。即使对数据并不敏感,也能跟着作者的节奏往下走,得到一些看图的经验。

本书的中文译本非常给力,把每一幅图都进行了汉化,且进行了非常接地气的翻译方式,工作量一定很大,翻译们辛苦了。

总结与推荐

总之,这是一本很好读,很耐读,也很实用的数据分析科普读物。读完本书,你不仅能够得到一双慧眼,来识破那些“别有用心”的图表,避免被误导,也能够学得对数据进行可视化时需要遵循的一些基本原则,精进工作场景中的图表设计功力。说不定这就是你进入无尽的数据处理技术海洋的契机。

张若瑶

《谁说菜鸟不会数据分析》这本书不在老师规划范围内,但是我无意中瞄到的,首先最大的亮点就是他的名字,我一看到感觉如获至宝,“菜鸟”那不就是我吗。他以职场新人和老人之间的日常对话方式,详细讲解了数据分析的每一个流程:明确分析目的和思路,数据收集,数据处理,数据分析,数据展现,报告撰写,基于Excel给出了每一个实现的方法,由于这些知识需要练习才可掌握,所以我大概略读了一遍,之后有需要即可细细查阅。3分

《数据挖掘与数据化运营实战》里面讲解了常用的挖掘方法,比如聚类、主成分分析、因子分析、关联规则等,还列举了阿里实战案例,都是实践后的干货总结,推荐给大家。5分

《金字塔原理》这本书讲了许多数据分析的思维方式,主要指导我们层次性结构化的思考与沟通,使得我们的说话与写作跟有逻辑更有结构,我感觉他对日后写论文有很大的帮助。4分

对我颇有感触的书是《Hadoop权威指南》,这本书被认为是学习Hadoop和大数据处理的权威指南之一,由于我初学分布式系统,Hadoop对我来说是完全陌生的,但这本书它很详细地讲解了Hadoop的概念、组成和实际应用,覆盖了Hadoop生态系统中的多个工具和技术,包括HDFS、MapReduce、Hive、Pig、HBase等。这完全覆盖了我们课上所学的内容,我喜欢它的实战部分,这对小白来说特别友好,它可以直截了当地教会我们整个过程,帮助我们了解如何在实际项目中应用Hadoop技术。所以如果你和我一样也是迫切渴望快速成长的大数据小白,那么这本书就很适合你了。当然可能需要一些基本的编程和数据处理知识,以更好地理解书中的内容。

王泽兴

精读书目:《Python编程从入门到实践》 评分:5分

选择原因:python是一门应用比较广泛的编程语言,是人工智能和深度学习等学科的基础,也为大数据技术和应用提供了方便。故自己对python比较有兴趣。

这本书对新手比较友好,结合菜鸟教程网站,我学到了一些比较基础的python语法和语句。如列表,元组,字典、集合等类型的索引、修改、删除、更新等操作,此外还有数据类型的正确使用和数据类型的转换等操作。学习过程中我发现python有很多比C语言方便的点,比如在定义变量时,C语言要首先指明变量的类型,而python则可以直接给变量赋值来自己确定变量类型。而且python不用在每行末尾加分号断句,且在循环语句中可以直接用缩进来表示该语句属于哪个部分内,比较方便。输入输出函数也更便于使用。当然这本书在短时间内还只是学到了一小部分,后面更难的部分和更复杂的实例还有待学习。

2.(1)推荐书目:《干净的数据——数据清洗入门与实践》 评分:4.5分

选择这本书的原因是因为它与我们的课程内容高度相关,郭宇春老师第一次课讲的就是数据清洗,而且看了一些大数据相关文献,他们在数据处理中会出现数据清洗这个步骤,所以这本书对于大数据模型的构建还是非常有用的。它主要介绍了数据清洗的基本概念和技巧。还详细讲解了数据收集、数据质量评估、缺失值处理等关键的步骤。

(2)推荐书目:《Hadoop数据分析》 评分:4.5分

在课程中通过PPT和华为实验我简单了解了这个词是什么意思,当然也还不是很清楚,这本书可以作为很好的补充,对课堂知识作进一步的理解,或许可以使自己解决一些实验中出现的问题。

(3)推荐书目:《算法导论》 评分:4.8分

说实话,第一次听到这本书的名字是刷抖音的时候。一条抖音评论直接说他认真啃老两本书,现在月薪一万五,其中第一本就是《算法导论》。所以这本书名我印象深刻,可能我的具体方向用到的编程语言并不多,但我以后有时间会认真阅读它的。

李志坚

(1)阅读前的准备:

在进行探索之前,我首先看了莫提默·J. 艾德勒、查尔斯·范多伦写的《如何阅读一本书》,在书中提到“如果你的阅读目的是想变成一个更好的阅读者,你就不能摸到任何书或文章都读。如果你所读的书都在你的能力范围之内,你就没法提升自己的阅读能力。你必须能操纵超越你能力的书,或像我们所说的,阅读超越你头脑的书。只有那样的书能帮助你的思想增长。除非你能增长心智,否则你学不到东西。”

在这本书中,作者将阅读的主要目标分为两种:一是为了获得资讯而读,二是为求得理解而读。类似的,我们可以将“阅读”这个词,区分成两种不同的意义。第一种意义是我们自己在阅读报纸、杂志,或其他的东西时,凭我们的阅读技巧与聪明才智,一下子便能融会贯通了。第二种意义是一个人试着读某样他一开始并不怎么了解的东西,这个东西的水平就是比阅读的人高上一截;这个作者想要表达的东西,能增进阅读者的理解力。

《如何阅读一本书》是关于阅读的艺术,是为了增强理解力而写的。作为一个有自我要求的读者,应该学会主动阅读。阅读就是学习,主动性越强,我们能收获的东西就越多。要想在阅读完之后能够有所收获,我们需要做笔记、带着问题去思考。

(2)选书

  1. 《大数据时代》——4.2分:

对于大数据来讲,我最初或者说最想看到第一本书是《大数据时代》。《大数据时代》是一本引人深思的图书,它深入探讨了大数据对我们社会和个人生活的巨大影响。读完后,我对大数据的重要性和潜力有了更深刻的理解。

这本书向我们展示了大数据如何改变了我们的社会。作者详细介绍了大数据的定义、来源以及如何应用于各个领域,包括商业、医疗、政治等等。通过大数据的分析和挖掘,我们能够更好地了解人们的行为模式、趋势和偏好,从而为企业和政府做出更明智的决策。同时,大数据也提供了巨大的商机和创新空间,让我们能够更好地应对日益复杂的社会问题。

这本书还提醒我们要认识到大数据时代的隐忧和挑战。尽管大数据带来了许多好处,但也存在着隐私和安全问题。作者谈到了个人信息保护的重要性,以及我们如何平衡大数据应用和个人隐私之间的关系。此外,大数据的分析和应用也会引发偏见和歧视的问题,因为数据可能反映出社会中的不平等和偏向。因此,我们需要更加关注数据的来源、准确性和使用方法,以确保数据分析的公正和可靠性。

我对大数据时代的未来充满了希望。这本书提到了人工智能、机器学习和深度学习等技术,它们将进一步推动大数据的发展和应用。我相信,随着技术的进步和全球数据的不断增长,大数据将继续为我们带来更多的机遇和挑战。我们需要不断学习和适应这个时代,同时也要思考如何确保大数据的可持续发展和正向影响。

《大数据时代》是一本引人思考的书籍,它让我对大数据有了全新的认识。我从中学到了很多关于大数据的概念、应用和挑战,这些都对我今后的学习和工作有很大的帮助。我也希望更多的人能够阅读这本书,深入了解大数据时代的力量和影响,从而更好地适应和应对未来的挑战。

  1. 《洞见数据价值:大数据挖掘要案纪实》——4.3分:

第二本书,我看的是《洞见数据价值:大数据挖掘要案纪实》,目的是想了解数据的价值是什么。这本书详细介绍了大数据挖掘的基本原理和方法。作者通过讲解案例中使用的技术和工具,让读者对大数据挖掘的过程有了更清晰的认识。从数据收集和清洗、特征提取和选择,到模型建立和评估,每个步骤都被详细解释和分析。通过这些案例,我了解到大数据挖掘不仅仅是数据分析的过程,更是一种对数据的深入挖掘和洞察。

通过案例的讲解和分析,我对大数据挖掘有了更深入的理解,同时也意识到了其在商业和社会中的重要性。这本书不仅是对大数据挖掘技术的介绍,更是对我们思考如何利用数据的一种激励。我相信这本书对于那些对大数据挖掘感兴趣的人们将会是一本宝贵的参考资料。

  1. 《大数据战争:人工智能时代不能不说的事》——4.5分:

这本书探讨了大数据和人工智能在社会、商业和个人生活中带来的变革和影响。

这本书讲述了大数据和人工智能如何成为当今世界的关键战场。作者详细介绍了大数据和人工智能技术的发展历程以及其在各个领域的应用。从社交媒体数据的分析到金融市场的预测,从个性化推荐系统到智能助手,这些技术正在改变着我们的生活方式和工作方式。

除了介绍技术和应用,这本书还分析了大数据和人工智能带来的挑战和问题。作者讨论了数据隐私和安全的重要性,提出了对算法的透明度和公正性的关注。他还探讨了大数据和人工智能对就业和社会不平等的影响,并提出了要制定相应的政策和法规来引导其发展。

此外,《大数据战争:人工智能时代不能不说的事》还强调了人类对于大数据和人工智能的重要作用。作者认为,大数据和人工智能技术的发展必须以人类的价值和道德为基础,而不是简单地追求技术的进步。他提倡人类要保持对技术的控制权,并将其用于造福整个社会。

总而言之,《大数据战争:人工智能时代不能不说的事》是一本引人深思的书籍。通过讲述大数据和人工智能的技术、应用和影响,它提醒我们认识到这些技术在现代社会中的重要性和潜力。同时,它也提醒我们要警惕其中可能存在的问题和挑战,并积极思考如何在人工智能时代中保护人类价值和权益。无论是对大数据和人工智能技术感兴趣的专业人士,还是对科技与社会互动有兴趣的普通读者,这本书都值得一读。

  1. 《数据不说谎:大数据之下的世界》——4.5分:

《数据不说谎:大数据之下的世界》是一本关于大数据的书籍,它探讨了大数据在当代社会中的应用和影响。

这本书首先介绍了大数据的概念和特点,解释了为什么大数据具有如此重要的价值。随着科技的发展和互联网的普及,我们生活中产生的数据数量呈指数级增长,这些数据蕴含着宝贵的信息和洞察力。作者通过具体的案例和实践经验,向我们展示了大数据如何改变各个领域,包括商业、医疗、教育、政府等。

在书中,作者还讨论了大数据的挑战和问题。虽然大数据为我们提供了更多的机会和便利,但也带来了隐私保护、数据安全、伦理道德等方面的考虑。作者认为我们需要在充分利用大数据的同时,制定相应的政策和法规来保护个人隐私和数据安全。

此外,《数据不说谎:大数据之下的世界》还探讨了数据可视化和数据科学的重要性。通过有效的数据可视化和数据科学方法,我们能够更好地理解和分析数据,从而做出更明智的决策和解决问题。作者还提供了一些实用的数据分析工具和技巧,帮助读者更好地利用大数据。

  1. 《数据不说谎:大数据之下的世界》——4.7分:

这本书对大数据的定义、应用和影响进行了深入的剖析,从技术和业务两个角度探讨了大数据如何驱动创新和改变企业的方式。这本书很好地介绍了大数据分析和数据科学的基本原则和方法。它提供了实用的技巧和案例,使读者能够更好地理解和应用大数据分析工具和技术。一些读者表示,他们从中学到了如何从海量的数据中提取有价值的信息,并将其应用于实际业务中。此外,读者还赞赏这本书对于大数据伦理和隐私保护的讨论。它强调了在大数据时代中保护个人隐私和数据安全的重要性,呼吁企业和政府采取适当的措施来处理和运用数据。

然而,这本书在某些方面可能过于理论化,缺乏实际操作的指导。希望看到更多的实例和案例,以便更好地理解将大数据运用于实际业务中的方法和策略。

这本书提供了深入的洞察力和实用的指导,帮助读者更好地理解和应用大数据。然而,每个人对一本书的感受都会有所不同,个人的读后感需要根据个人的背景和兴趣来决定。

(3)读书——《干净的数据:数据清洗入门与实践》

意义及价值:这本书介绍了数据清洗的重要性和意义。在现实中,原始数据常常存在着各种问题,例如缺失值、异常值、重复值、格式错误等,这些问题会对数据分析和建模的结果产生负面影响。数据清洗的目的就是去除或修复这些问题,以确保数据的准确性和完整性。

在实践方面,这本书提供了许多实际案例和使用不同工具和编程语言进行数据清洗的示例。它介绍了各种数据清洗工具和库,如Python中的pandas和numpy,R语言中的tidyverse等,以帮助读者选择合适的工具来处理自己的数据。

这本书还涵盖了数据清洗的其他相关主题,如数据质量评估、数据去重、数据转换等。它强调了数据清洗在数据分析和机器学习中的重要性,并提供了一些最佳实践和实用技巧。

不足之处及可改进的方面:

<1> 深度和复杂性有限:作为一本入门指南,该书可能在某些方面缺乏深度和复杂性。对于已经具有一定数据清洗基础的读者来说,他们可能需要更多高级或更复杂的技术和方法。

<2> 缺乏具体的应用案例:尽管这本书提供了一些实践案例,但读者可能希望看到更多真实世界的应用案例。这些案例可以帮助读者更好地理解如何将数据清洗技术应用于不同领域的实际项目中。

<3> 缺乏对数据质量评估的深入讨论:在数据清洗过程中,数据质量评估是一个重要的环节。然而,该书在数据质量评估方面可能没有深入讨论,对于一些读者来说,他们可能需要更多关于评估数据质量的方法和指导。

<4> 侧重于特定工具和编程语言:这本书强调使用特定的工具和编程语言来进行数据清洗,如Python的pandas和numpy,R语言的tidyverse等。然而,读者可能期望看到更多关于其他工具和语言的讨论,以满足他们的特定需求。

<5> 缺乏对数据清洗中常见挑战的深入讨论:数据清洗过程中可能会出现一些常见挑战,如数据不一致性、数据不完整性等。这本书可能没有充分涵盖这些挑战,并提供相应的解决方案和建议。

黄博雯

①《被算法操控的生活》:内容如其书名所言,我认为是一本不错的入门科普读物,帮助了解一些生活中的算法,会和书中说的有相似的经历。3.4分。

②《穿越数据的迷宫:数据管理执行指南》:这本书蛮适合小白,内容比较通俗易懂且有框架,从十二个方面对数据管理知识体系进行了梳理。3.85分.

③《洞见数据价值:大数据挖掘要案纪实》:涉及大数据在多个行业的应用展望,介绍了许多技术案例,寓教于乐,很适合小白阅读。4分。

④《人人都会数据分析——从生活实例学统计》:对新手很友好,每个公式后面都有详细的例子就比较容易掌握,但大学学过统计学、概率论等的读者可以当作温习资料。4分。

⑤《菜鸟侦探挑战数据分析》:很意外是一本小说形式+插画,由浅入深,生动形象,非常有趣,让人对数据分析和统计学感兴趣,还有免费的RStudio安装教程。4.5分

⑥《大数据战争:人工智能时代不能不说的事》:这本书选取了一些大数据引发的典型案例与事件,以案件的形式描写,从个人、企业和国家三者交互的角度阐述,可读性较高4.2分。

读书:《菜鸟侦探挑战数据分析》

这本书就是讲一个“数据分析”菜鸟成长的故事,作者将知识融入故事讲述一些大数据案例,很活泼生动、幽默有趣,读的时候让人不禁想起日本动画的某些情景。让我对数据分析有了一个大概的了解,而且还可以根据书里给的实际数据、对应的R语言等实操做出结果(在CSDN上都有相关的帖子,可以自己学习)。整本书都比较简单易懂,每章一个案件一个知识点,深入浅出的解释数据分析相关问题,故事悬念迭出,让人有读下去的欲望。比如商业街有一新店开业纪念抽奖这一案例,天羽小姐采用概率分布的知识和直方图的方法展示证明这家新店是无辜的。读完这本书会发现,我们身边随时发生的各种事情都可以用数据分析解决。

但是书里有一些地方小小的夸张,可能和小说形式有关。比如日本大概有25%初三的女生高于160cm,我不太信;在第四章说公司的文件服务器有“卡拉什尼科夫冲锋枪都打不烂”的强度;在讲数据挖掘,但数据采集是人工就蛮惊讶的。有一些知识点讲的比较简略,还需要自己查阅资料深入学习,比如用R分析HTML、逻辑回归分析等等。这本书出版时间有点久了,案件的解决可能有更好的编程方法。

如果我写可能没有更好的改进,作为一本入门的科普书绰绰有余了。如非要改进的话,我可能会加深讲解概率论中的一些理论知识,像本书在第二章的商业街面包店质量评测并没有很好地说明为何要使用p值,没有相关知识的大众可能听不懂。

胡甜姣

1 桑尼尔·索雷斯《大数据治理》:书中说要明智地使用数据,就必须管理所有数据。在战略从顶层设计到底层实现的“落地”过程中,大数据治理是大数据分析的基础。这本书梳理了大数据治理的各个方面,分享了全球很多经典案例,对于我们未来数据的实际应用有很大借鉴意义与启发。我的评分是3分;

2 《数据化管理:洞悉零售及电子商务运营》:这本书通过讲述两个年轻人在大公司商品销售和数据处理等部门工作的经历,通过大量的案例讲解数据意识和零售思维,将各种数据分析方法融入到具体的业务场景中,能够帮助我们利用数据更高效的对业务进行管理。这本书最好的地方在于他的案例讲解是应用excel操作容易上手,所以我的评分是4.4分;

3 孟志青《时态数据挖掘算法》:这本书是部分学校的教材,教授的内容包括时态数据模型、时态关联规则模型与算法、时态数据下周期模式、部分周期和近似周期模式算法、时态数据流和时态文本算法等。出版较早,内容也很丰富,我的评分是4.6分;

4 马云、马化腾、李彦宏、冯一村《大数据领导干部读本》:这本书是我国第一部专门为领导干部撰写的大数据知识读本。为配合在党政领导干部中深入普及国家大数据战略知识,作为学生党员应当学习如何利用大数据提升我们的能力,这本书以宏观国家大数据战略部署为背景,对我的思想和未来实践方面有诸多启示,所以我的评分是5分。

5 毕马威中国大数据团队《洞见数据价值——大数据挖掘要案纪实》

作为金融专业的学生,阅读这本书对我有很大启发,这本书主要从银行业应用大数据的角度,从数据资深从业者的角度出发,分享了实用的经验与心得。越是基本的理念,往往越能成为时代的标志、价值的度量,数据正是如此。2020年全球数据总量预计将超过44万千亿兆字节。展望未来,大数据将成为银行业的核心动能。

客户使用银行服务的方式,正在从柜台走向网络和智能手机。银行和客户的联系更多依赖于线上渠道,对客户的了解发展越发依赖数据。如今越来越多的人开始使用电子银行和移动终端,银行已经记录下极为丰富的位置、行为偏好、需求偏好等信息,大量信息等待分析和挖掘。对银行来说,人员、资金、技术在未来一段时间内是可以替代的,只有数据是长期积累、不可替代的关键因素,如果不能将数据作为银行的战略性资产予以开发利用,未来在激烈的市场竞争中将处于落后地位,甚至失去银行的核心竞争力。

目前,国内许多银行都已经认识到数据分析的重要性,特别是在零售、信用卡、风险等条线展开了有益尝试,也取得了一定的效果。国内某些大型银行通过借鉴海外银行以及互联网公司的领先实践,已经在数据分析领域开展了大胆创新尝试,将数据分析结果作为制定业务策略和指导日常操作的关键数据。通过对各种业务场景开展反复和深入挖掘,银行的数据分析团队能迅速培养分析能力和积累业务洞察能力,从整体上推动银行向智能化发展。

除了观察和分析大数据在包括银行业在内的金融业的应用和发展之外介绍了许多生动的技术案例,除了业务、学术领域的研究外,还包含了部分在生活中应用复杂算法与模型的研究,其中针对数据方法论、业务经验和创新探索等方面都可以得到提升。

6 美国国家学术院国家研究委员会《海量数据分析前沿》:

这本书主要介绍了国际大数据的发展情况和相关著名学者对大数据的定义,有利于我们开拓国际视野,学习他们的精华。近年来,大数据成为学术界和工业界的热点,其本质就是海量数据分析。这本书重点介绍了海量数据挖掘分析以及流数据挖掘的进展,具体内容包括数据建模、任务建模、计算复杂性问题分析、数据采样以及人工参与的数据分析方法等。

书中形象地把大数据的研究全景看作是一个倒立的三角形,便于我们很好的理解大数据有关的研究逻辑内容。这个倒立三角形分为三层,最上面一层,也就是最宽的那一层,代表形形色色的各种应用,这些应用是数据的来源也是数据的应用场所;最底下的一层,也就是那个小三角形,就代表IT计算系统或平台,这是传统信息技术行业关心和擅长的领域;中间那一层代表模型和算法,指的就是对应用进行理解、抽象、建模,然后在底层的计算平台上予以实现。这三个层次中,应用这一层,每一类应用有各自对应的学科去深入研究;计算平台那一层对应的学科就是我们计算机或IT学科。按照书中提及的观点,大数据的本质就是海量数据分析。海量数据的来源包括互联网、传感器、生产生活、科学观测、科学实验等。

刘忠良

(1)《大数据战争:人工智能时代不能不说的事》4.7分

本书选取了一些大数据引发不正当竞争的案例,谈论数据隐私、数据竞争、数据合规和数据共享,使我们能更好地面对人工智能时代大数据发展带来的机遇与挑战。

无论是产业布局还是战略规划,人工智能时代大数据收集与应用的风险不能不加以正视。事实上,个人在其各种数据被众多网站大量收集几近成为「透明人」的情况下,大数据所有权该归谁?互联网公司进行数据竞争的边界在哪里?信息安全问题如何解决?政府监管如何着力?……本书选取大数据引发不正当竞争案(新浪微博诉脉脉案)、遗忘权案(任甲玉诉百度案)、大众点评网诉百度案、「头腾案」、Facebook「数据门」事件,以及美国 CLOUD 法案、欧盟 GDPR 应用等典型案例与事件,通过对判决的评析、立法本意的探寻、事件的追问等,谈论数据隐私、数据竞争、数据合规和数据共享,使我们能更好地面对人工智能时代大数据发展带来的机遇与挑战。

(2)《数据失控:算法时代的个体危机》4.8分

这本书围绕着四个关键词,分别是“数据”、“算法”、“类属”、“隐私”,同时主要围绕这几个问题展开,分别是算法是如何通过模型将用户的数据进行归类、算法牢笼怎样以数据控制人们的生活、“数据统治权”如何造就了“软生命政治”,以及在大数据时代个体隐私何去何从。

本书前半部门介绍了算法如何生产知识,如何通过数据模型为我们打上各种标签,形成算法身份,并通过这些算法身份潜移默化地对我们生活进行调控,以任天堂的健身游戏为例子阐述算法牢笼。因为这些可度量类型会不断调整,以最佳的方式适应描述的群体,对我们不断重新定义,不抛弃不放弃,由此,书里称“可度量型的模糊性让位于延展性”。

后半部分讲述主体性和隐私。其中,我对余者的概念非常感兴趣,余者与芝诺的二分法悖论相契合。大家是否听过这个故事呢?从塞萨洛尼基城到雅典,走一半路程然后休息,从那个中开始,再走剩下的路程的一般,然后休息,从此不断往复,但是永远不会到达雅典,哪怕你已经及其靠近雅典的城墙,这种无止境的二分意味着我无法走完全程。余者是我们主观性可以利用的杠杆,用以解决和解释算法生活中不可避免的不足。正式因为有余者的存在,算法公民身份永远不会和血统论与出生地论的公民身份达成一致,而技术正在试图不断缩小余者的范围。

(3)《洞见数据价值——大数据挖掘要案纪实》4.7分

内容丰富观点新颖,贴近大众生活、工作与学习实际场景,内容不拘泥于技术阐释,以丰富的案例来解析大数据挖掘,尽量通过常见的场景来阐述数据的价值与意义。

(4)《大数据时代》4.5分

作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人

郑修萌

1.《小白学数据挖掘与机器学习》(5.0分):本书用漫画的方式将数据挖掘与机器学习的知识分享给读者,十分适合作为数据挖掘数据分析的入门书籍,通俗易懂。

这本书用生活中常见的例子将数据挖掘与机器学习知识以通俗易懂的方式分享出来,在读书的过程中可以学会IBM SPSS Modeler工具的基本使用。以漫画的形式介绍日常案例也会增加学习的兴趣,每章最后的应用案例可以让我们进行实际操作的尝试。这本书很适合作为数据挖掘数据分析的入门书籍,即使想要深入研究算法原理也有对应的公式推导,是从入门到基础巩固的首选。唯一的缺点就是难度较低,不适合想要进行深度学习数据挖掘与机器学习的人使用。

2.《对话大数据》(4.8分):本书通过对话的方式,分析了各行各业对于大数据的创新与应用,深入探讨了大数据在各个领域的现状以及未来的发展趋势。

3.《人人可懂的数据科学》(4.6分):本书介绍了数据科学领域的发展,常见算法,以及在各行业的实践。对于数据科学的基本概念和原理进行了解释,还探讨了伦理与法律的问题,最后给出了数据科学项目成功的原则。

4.《菜鸟侦探挑战数据分析》(5.0分):本书以小说的形式,讲述了主人公从零开始学习数据分析的故事。内容贴近生活,由浅入深,吸引人一直想继续读下去。案例的实践性也很强,适合想学习RStudio软件的入门者。

5.《大数据战争》(4.8分):本书选取了大数据引发的一些典型案例和事件,通过对于这些案例或事件的判决进行分析,进而谈论数据隐私等更深入的话题,使我们能更好的面对大数据带来的机遇和挑战。

刘华祥

①《大数据时代》:概括其内容,这本书从理论和实践的角度,阐述了大数据的概念、特点以及应用的重要性。它介绍了大数据如何被收集、储存、分析,并如何为决策提供洞见和预测能力。书中还讨论了大数据对商业、医疗、政府、教育等领域的革新和变革,以及对隐私、道德和社会权益的影响。强调了大数据对于改变我们思考问题的方式以及塑造未来社会的重要性。它提出了一些观点和案例,帮助读者理解大数据在解决问题、创新和发展方面的潜力。同时,书中也警示了大数据所带来的挑战和风险,如数据安全、个人隐私保护等问题,提出了一些应对策略和原则。

总体而言,《大数据时代》是一本旨在帮助读者理解和应对大数据时代的重要著作,它揭示了大数据对于社会、经济和个人生活的深远影响,并探讨了如何有效利用和管理大数据的相关问题。(4分)。

②《小白学数据挖掘与机器学习(SPSSModeler案例篇)》:首先总结:精美图书+学习视频!不但包含了数学统计知识,也囊括了机器学习的实践案例,最重要的是所有课时都将利用轻松的场景,把专业晦涩的数据科学知识及商业应用内容用通俗易懂的方式传授给大家。确实容易理解了好多!(5分)

③《深度学习》:从基础概念入手,系统地介绍了深度神经网络、反向传播算法、卷积神经网络、循环神经网络等深度学习的核心内容。它涵盖了深度学习的理论、方法和实践技巧,并提供了丰富的数学推导和算法实现示例。此外,书中还介绍了深度生成模型、强化学习、迁移学习等进阶主题,以及深度学习在计算机视觉、自然语言处理等领域的应用案例。

整体来说,《深度学习》是一本全面而深入的关于深度学习的权威参考书。它适合对深度学习感兴趣的研究者、工程师和学生阅读,帮助我建立了对深度学习算法和原理的全面理解,还提供了实际应用的指导和实现的技巧。具有实际意义!!!!!难!!!!感觉讲的再简单点对小白会好点,或许作者希望有基础的人再看吧(4分)

④《人人都会数据分析——从生活实例学统计》:这本书以生活实例为基础,通过具体的案例和实际数据展示,向读者解释了统计学的基本概念、原理和方法。它从简单易懂的角度出发,避免使用过多的数学公式和专业术语,力求让读者能够轻松理解和运用统计学知识。

书中涵盖了统计学的各个方面,包括描述统计、概率论、假设检验、回归分析、方差分析等内容。每个主题都通过实际案例进行说明,并提供相应的分析步骤和解释。

通过阅读这本书,读者可以学会如何收集和整理数据、如何运用统计学方法进行数据分析、如何做出合理的统计推断和决策。无论是在学术领域还是在日常生活中,读者都可以通过学习这本书获得一些基本的数据分析技能。总之,是一本适合初学者的统计学入门书籍,它通过生动的案例和简明的讲解,帮助读者提升数据分析能力。(4.6分)。

⑤《文本挖掘技术及其应用》:该书主要介绍了文本挖掘的基本概念、技术方法以及在实际应用中的各种场景。文本挖掘是指从大规模文本数据中自动发现有价值的信息和知识的过程。这本书首先对文本挖掘的背景和意义进行了介绍,阐述了文本挖掘与自然语言处理、机器学习等领域的关系。

接着,该书详细介绍了文本挖掘的各个环节和方法,包括文本预处理、特征提取、分类与聚类、情感分析、实体识别等。每个环节都通过算法和实例进行了解释,并提供了相关的编程代码和工具。该书还重点介绍了文本挖掘的应用领域,如舆情分析、社交媒体分析、金融风险预警、医疗健康等。通过实际案例和应用场景的讲解,读者可以了解文本挖掘技术在不同领域中的具体应用和效果。 (3分)

我觉得这本书可以增加一些互动的元素,比如说练习题或者在线视频教学,有些东西光看书确实不明白,然后可以增加一些相对实用的场景,可以把大数据应用在生活应用场景中。

李玉华

1.《数据即未来》布瑞恩·戈德西 (Brian Godsey),评分:4.5分

本书的作者指出,数据已经成为当今社会的重要资产,它们不仅可以推动科技创新,还可以帮助我们做出更明智的决策。还提出了观点:数据正在为各个行业带来巨大的变革和提升。值得一提的是本书还对数据的隐私保护和伦理问题进行了讨;并对数据安全和个人隐私的保护提出了一些应对措施。我认为《数据即未来》这本书更适合想要广泛了解大数据的普通读者,它比较偏向为科普读物,但同时也能引发读者对人类未来的思考。

2.《我们的大数据时代》李广建,评分:4分

在《我们的大数据时代》一书中,作者李广建从一个普通人的角度出发,用通俗易懂的语言解释了什么是大数据,以及它如何改变着我们的日常生活和社会运行方式。这本书也同样强调了警惕大数据时代的隐私保护和伦理问题。他还在每一个章节结尾设置了思考题,来引起读者更深的思考。我认为这本书不仅是面向专业人士的一本技术指南,也同样适合广大读者去了解大数据知识。通过阅读这本书,我们可以更好地理解和应对大数据时代带来的挑战和机遇。

3.《干净的数据——数据清洗入门与实践》[美] Megan Squire,评分:4.5分

这本书是一本非常实用的指南,它主要介绍了数据清洗的基本概念和技巧。还详细讲解了数据收集、数据质量评估、缺失值处理等关键的步骤。这本书最优秀的地方是它非常实用,有丰富的示例和实践案例,让读者能够从实践的角度更好地理解和应用所学知识。我认为这本书非常值得入门的同学进行参考学习。它不仅仅编写风格简洁明了,还注重实践操作;并且每个章节都有详细的步骤说明,我们可以边学边做。且对于有一定大数据基础的专业同学来说,也能在书中找到合适的参考资料。

4.《大数据之美:挖掘、Hadoop、架构,更精准地发现业务与营销》黄宏程等,评分:3分

本书主要介绍了大数据挖掘的概念、技术和应用,侧重的方向是业务与营销。书中对数据预处理、模型选择和评估等方向比较有逻辑性的说明。最值得参考的是对Hadoop的详实介绍,能让读者详细了解到Hadoop在大数据处理中的重要性和应用场景。总体来说我认为本书还是较为系统地介绍了挖掘技术和工具,并通过实例说明了大数据在业务和营销中的巨大潜力。对于该方向的研究者来说能够获得充分的实践指导。

5.《大数据分析——python爬虫、数据清洗和数据可视化》黄源等,评分:5分

这本书是一本在大数据分析方法方面非常实用的指南。首先,作者深入介绍了Python爬虫技术,并且能了解如何通过编写爬虫程序从互联网上收集大量数据。还介绍了如何处理动态网页、反爬虫机制等一些实用的技巧。其次,本书最主要是阐述如何进行数据清洗,通过丰富的实例和案例,教读者一些常见的数据质量问题和处理方法、数据清洗的关键技术和流程。此外还详细介绍了数据可视化的方法和工具。我认为这本书还是非常值得学习的。它内容比较全面,并且提供了非常实用的技术。

1、对图书的探索:

这本书从实际需求出发,详细讲解了如何利用Python进行爬虫、数据清洗和数据可视化。书中内容主要分为三个部分:

一、Python爬虫:本部分首先介绍了爬虫的基本概念和工作原理,然后详细讲解了如何使用Python编写爬虫程序,包括选择合适的库、解析网页、处理数据等方面。通过实践案例,读者可以学会如何从网页中抓取数据并保存到本地。

二、数据清洗:本部分介绍了数据清洗的重要性和基本步骤,包括缺失值处理、异常值处理、数据类型转换等。书中给出了多个实际案例,并通过Python代码示例演示了如何进行数据清洗,让读者能够熟练地处理各种数据质量问题。

三、数据可视化:本部分着重介绍了数据可视化的概念和方法,以及如何使用Python中的可视化库进行数据可视化。书中详细讲解了Matplotlib和Seaborn等库的使用,展示了如何绘制各种图表和图形,让读者能够将分析结果以直观的方式展示出来。

读后感:在阅读完这本书后,我对书中涉及的内容都有了更深入的理解,并且也学到了很多实际操作的技巧。如果后续会有大数据方面的课题或实践操作,或许这是一本很好的参考书籍。

2、优点:

1)对于初学者来说,是一本能够很好地了解大数据和全面学习大数据分析的工具书;

2)非常注重实践,书中有实际的例子和代码实现来帮助读者,并且能让读者快速上手实践;

3)对于代码还给出了详细的示例和说明,能很好的理解代码语言及内容。

3、 缺点:

1)我认为这本书在内容上还是存在一定局限性。首先它面向的读者是要有一定大数据基础的;

2)但是因为设计的内容过多,不够系统性和专业性,对某一个方面的技术阐述都没有足够深入;

3)还有技术的滞后性,书本中的内容很难跟上最实新的技术和工具。

4、 改进意见:

1)我认为可以在基础理论知识方面更多一点,介绍一些技术工具的原理;

2)实践应用方面,可以增加一些真实的案例和数据集,提供一些简化后的应用场景来操作练习;

3)同时在配套讲解的视频中增加一些交互式的教学。

刘钊

1).《Spark大数据处理与分析》 评分:4.2

本书对Spark应用程序开发的基本概念和技术进行了系统的介绍,并通过简单易懂的实例说明了其具体实现过程。通过本书的学习,读者可以掌握Spark编程技术的基本概念、原理和编程方法,通过灵活的实践运用,能够进行应用程序的实际开发。

本书适用于Spark程序设计的初学者,可作为高等学校计算机专业的教材,也可作为Spark程序设计的培训教材。

2).《Python数据分析基础教程》 评分:4.5

本书详细讲解了Python数据分析的相关内容,共分为10章,第1~9章分别讲解了数据分析概述、Python与数据分析、Python语言基础、NumPy数组与矢量计算、用NumPy进行简单统计分析、数据可视化——Matplotlib库、pandas数据分析基础、用pandas进行数据预处理、机器学习库scikit-learn入门;第10章用一个综合案例——电影数据分析项目,带领读者灵活掌握本书所学内容。

3).《Spark机器学习进阶实战》 评分:4.4

本书一方面基于Spark现有的机器学习库讲解,另一方面尽量做到和现有Spark版本中的机器学习库解耦,突出对大数据机器学习的宏观理解,并给出典型算法的工程化实现,使更多的人轻松使用机器学习进行大数据价值挖掘,从而建立大数据机器学习工程化思维,在不必深究算法细节的前提下有效解决实际问题。本书更加强调在实际场景中的应用,并有针对性地给出了综合应用场景。

4).《数据分析师宝典》 评分:4.8

数据分析结果是否有效、是否能体现应有的价值,有时关系着企业经营的成败,但到底该如何确保数据分析的结果是有效的呢?本书就是数据分析知识的宝典,通过“案例+方法”的方式为数据分析人员提供全面、实用的理论指导和丰富、有效的实战案例。如何在一本书中既简单有效地传播数据分析的相关概念,又可以让读者快速入门,是编写本书的过程中重点解决的问题。

为了使广大的数据分析人员对数据分析的基本知识有更深刻、更全面的了解,本书系统、详细地介绍了数据分析知识的框架,分别从数据分析的类型、数据分析的作用、数据分析的步骤等多个方面讲解了一名合格的数据分析人员必须掌握的知识与技能。

本书抛开了深奥的理论条文,采用了大量的图表与案例,深入浅出,将枯燥生硬的理论知识用诙谐幽默、通俗易懂的语言娓娓道来。本书除对必备的理论知识进行介绍外,其他不做过多陈述,而是更注重实务操作,旨在帮助数据分析人员快速掌握数据分析的核心知识,实现数据分析能力的大幅度提高。

数据分析可以简单概括为用适当的方法对大量复杂的数据进行分析,从中提取具有价值的信息,并进行详细研究和概括总结的过程。本书将从数据分析的类型、数据资源、数据分析的步骤等对数据分析进行深入解读。

本书优点:

(1)逻辑性强

数据的分析与论证要严谨合理,逻辑性强。

(2)结构清晰

分析报告的结构需要简单明了,符合常识。

(3)结论明确

数据分析的结论一定是从数据中得出的,要切合数据分析的主题。选择的分析结论一定是和主题相关性最强的,否则容易打乱读者的思路。

(4)可视化

一图胜千言。在数据分析报告中应当多使用图表,减少多余的解释。

本书缺点:

在某一些细节问题上没有深入讲解,导致读者在阅读时有一定的困难。

我的建议:

可以加入一些实际案例来论述问题,将理论与实践结合,可以让读者更好的理解,通俗易懂,提高阅读效率。

5).《大数据技术导论》 评分:4.7

本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。

本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。

胡琼玉

  1. 《智能时代》吴军,评分:4.5分。

《智能时代》这本书展现了吴军的真知灼见和前瞻思维,这些都来自于他在大数据和机器智能领域的多年第一线实践经验。全书对大数据与智能革命带来的思维革命、技术上的挑战,以及机器智能如何改变人类社会,都做了全面的讲解。与其他一些写机器智能的书不同,这本书与作者之前的几本书一样,维持了作者对科学生动而易于理解的、有温度感的一贯的表述方式。

a. 图书的主要内容:

吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去被认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来时代的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的。 另一方面,智能化也会对整个社会带来巨大的冲击,尤其是在智能革命的初期。因此,在智能时代开始的时候,我们需要未雨绸缪,尽可能地避免它对社会带来的负面影响。

吴军的《智能时代》一书让我对于人工智能和科技发展有了更加深入地理解,帮助我了解了当前和未来智能时代的重要趋势和挑战。他深入浅出地介绍了人工智能的定义、发展历程以及对各行业的影响,并提供了一些思考和建议。

b. 图书的优点:

本书的优点在于吴军扎实的技术背景,他能将复杂的技术概念以简单易懂的方式解释给读者。此外,他的观点和见解也被认为是深入的、有洞见的。

c. 图书中的不足之处:

i. 本书在一些方面存在缺失。

ii. 书中的案例研究不够丰富,缺乏具体的实证分析。

iii. 书中对于人工智能发展的道德和伦理问题讨论不够深入。

d. 改进建议:

i. 增加更多实际案例和数据来支持观点,以及加强对于道德和伦理问题的讨论。

ii. 加入更多的实用建议和技术趋势的分析,以帮助读者更好地理解和应对智能时代的挑战。

  1. 《数据不说谎:大数据之下的世界》城市数据团,评分:5分。

本书是一本让你“脑洞大开”的图书,让你尝试从大数据角度来解读这个世界,你会发现,有些问题,和你的直觉完全不一样。本书内容分为三部分:第一部分可概括为“脑洞大开”,以淘宝、旅游、餐馆取名等不同的角度切入,说明数据可以用于做许多有趣的事情。第二部分为数据与工作,包括了公务员、二三线城市的衰落、创业等若干热门话题。第三部分为数据与生活,包括用数据帮助理解生活现象、用数据挖掘生活中的趣味、以及用数字看房市三个专题。本书既适合大中专学生作为开阔眼界拓展思维,帮助学习之用,也适合职场人士提升技能辅助工作决策所用。是一切数据思维爱好者不可多得的好书。

a. 图书的主要内容:

《数据不说谎:大数据之下的世界》主要从大数据角度来分析、解读这个世界,该书分为三部分,第一部分是“脑洞大开”,第二部分是“数据与工作”,第三部分是“数据与生活”。

本书通过丰富的案例和故事,让我了解了大数据时代的背后及其对我们生活的影响。它向读者展示了数据如何支撑城市运营、商业决策、社会治理等方方面面,帮助我们更好地理解大数据背后的故事和效果。

b. 图书的优点:

本书提供了很多实际案例,使抽象的概念变得更加具体和易懂。它揭示了大数据在城市发展、城市规划、交通管理、环境监测等方面的应用,并且探讨了数据隐私、安全等问题。

本书清晰明了且与生活息息相关,清晰明了是指该书的攥写思路,与生活息息相关则是该书攥写的一些话题都是与生活相关,这个可以看目录得到,比如“我们的消费情况”、“城市拥堵问题”、“下雨天与外卖的联系”等。另外,该书大部分的话题都是锁定在上海这个地域,个人猜测加上阅读书的附录后发现这大概率是因为作者是从上海“发家”,对上海比较熟悉。总体而言,该书还是能够达到开阔视野的目的,基本满足阅读前的逾期,里面得出的结论有部分跟预想的确实不同。建议可以作为一本工具书,当你想了解某个话题,就到这本书上看看有没有,有的话就可以借鉴作者获取数据,以及分析数据的方法。

c. 图书中的不足之处:

i. 本书数据分析和处理技术的讲解不够深入,缺少具体的技术细节。

ii. 书中对于数据治理和伦理问题的讨论不够全面。

d. 改进建议:

i. 增加更多关于数据分析和处理技术的详细解释,以帮助读者更好地理解数据背后的工作原理。

ii. 加入更多关于数据治理、隐私保护和伦理问题的深入讨论,以帮助读者更全面地理解大数据时代的挑战和影响。

  1. 《写给大忙人的Hadoop 2》Douglas Eadline,评分:4.5分。

本书首先介绍了Hadoop 的背景知识,包括Hadoop 2 和YARN 的工作原理和对Hadoop 1 的改进,然后将数据湖与传统存储比较。第2 章到第8 章,分别介绍了Hadoop 2 和核心服务的安装方法、Hadoop 分布式文件系统、MapReduce 和YARN 编程,以及利用Apache Pig 等Hadoop 工具简化编程。最后两章讲述了利用Apache Ambari 等工具管理Hadoop 和基本的管理程序。附录包括Hadoop 2 故障诊断和排除的基础知识、Apache Hue 和Apache Spark 安装等。本书通俗易懂,具有大量操作实例,易于上手,适合Hadoop 用户、管理员、开发和运维人员、程序员、架构师、分析师和数据科学工作者阅读。

  1. 《蓝鲸法则——大数据之道》洪磊、李静、刘先泽,评分:4分。

大数据目前被广泛联系到现代商业社会的各个场景。众多的研究文献都会聚集于从技术层面来挖掘这些数据、处理这些数据、到最后分析这些数据,然而,由于目前对大数据分析处理的主要认知是:⑴相关性比因果性重要;⑵要全量而不要抽样;⑶要宏观而不要精确,而使得通过这种方式获得的大数据结论往往过于宏观肤浅,对具体行业应用而言并没有实际的指导意义。如此往往陷阱于:盲大、夸大、自大,大数据分析技术总是和业务场景脱节,使得大数据分析的真正价值失之交臂。大数据的真正价值便在于,通过分析才能获取很多智能的、深入的、有价值的洞察来解决行业面临的问题。数据处理和分析能力,最有效的获得大数据能力方式便是“化大为小、化繁为简”大小数据结合,通过“简约法则”来实现来获得大数据价值:数据认识及处理:通过将大数据进行去噪、分类、整合得出小数据;信息求证及获取:对小数据进行求证、交换,将数据转为新信息;知识孕育:对新信息赋予场景的去分析、去整理、去提炼之后,来发现新知、新规律和新价值体系;洞察获取:获得需要通过有应用场景为基础的数据解读来完成,这种建构新规律、新知识和新价值体的结论观点便是我们洞悉的洞察。

  1. 《文本挖掘技术及其应用》谢邦昌、朱建平,评分:4分。

本书包括四个部分。第一部分包括两章,介绍常用文本挖掘技术,总结基本流程。第二部分共五章,介绍R软件在文本挖掘上的应用。第三部分共两章,介绍在MS SQL Sever上如何实现文本挖掘。 第四部 分为顾问公司和新闻网合作的案例。

郑昊佳

1.《爬虫实战》

大数据应用怎么能没有数据呢?我们可以从各种渠道获得我们想要的数据,爬虫是非常常用的技术,可以获得我们想要的数据。《爬虫实战》是一本全面的实用的指南,给我们提供了实现网络爬虫的技术,从基础到深入,一步步教我们学习编写高效实用的爬虫代码。评分4.8。

2.《数据可视化从小白到数据工程师的成长之路》

大量数据如果只是一堆数字会让人摸不着头脑,这就需要将数据进行可视化,我们便可以比较容易的从中发现数据的潜在规律。《数据可视化从小白到数据工程师的成长之路》这本书一本实用性较强的数据可视化入门书籍,它讲述了数据可视化的基础原理、构造方法和实践技巧,以及常用的数据可视化工具和框架。全书既注重理论知识的阐述,又强调实际应用的操作演练,通过丰富的案例和示例,帮助我们建立起完整的数据可视化系统,掌握有效的数据沟通和决策支持能力。评分4.7

3.《干净的数据:数据清洗入门与实践》

有了数据,但是庞大的数据里面肯定有我们需要和我们不需要的数据,怎么从大量数据中提取出我们需要的数据呢?数据清洗是必须的。《干净的数据:数据清洗入门与实践》这本书详细阐述了数据清洗的基本原理和步骤,包括数据预处理、数据质量评估、异常处理、缺失值填充、数据转换和重构,以及大数据环境下的数据清洗技术。全书通俗易懂,还有大量的实际案例和实战经验,适合入门学者。评分4.9。

4.《Spark大数据实例开发教程》

(1) 学习报告(给我带来了什么)

这本书是介绍使用Spark进行大数据开发的比较实用的教程。首先,他从基础开始,介绍了Spark的分布式计算模型和核心组件,如RDD、DataFrame和Spark Streaming等,让我对Spark有了更加深入的了解。其次这本书通过案例驱动的方式,展示了Spark在不同领域的应用场景,如日志分析、推荐系统、机器学习等,这些实际案例可以帮助我将理论知识与实践相结合,更好地应用Spark解决实际问题。最后这本书还注重讲解Spark集群的配置和调优,以及与其他大数据技术栈(如Hadoop、Hive、Kafka等)的集成,使我能够在实际生产环境中高效运行Spark应用。

(2) 为什么值得读

相信大家都是奔着实战才学习大数据应用。这本书系统的介绍了Spark大数据开发的方方面面,让人清楚的了解Spark;结合实例和案例,能更快的使人明白如何使用Spark进行实战。

(3) 弱在哪里,怎么改进

a. 缺乏更深入和高级的主题:该书主要侧重于介绍Spark的基础知识和应用案例,但在高级主题上的讨论相对较少。为了满足那些已经熟悉基础知识并希望进一步扩展技能的读者,可以考虑添加更多高级主题,如图形处理、流式处理、机器学习和图计算等。

b. 缺少详细的性能优化指导:在大数据处理中,性能优化是非常重要的一个方面,然而《Spark大数据实例开发教程》在性能优化方面的讨论可能较为有限。改进的方式可以包括更深入地介绍Spark的性能优化技术、调优方法和经验准则,并提供详细的实践建议和示例。

c. 缺乏复杂的挑战和解决方案:尽管书中提供了不少具体的实战案例,但对于一些复杂的现实世界问题,可能只有简单的示例和解决方法。改进的方法是引入更多真实世界的挑战和复杂案例,并给出深入分析和解决方案,以帮助读者更好地应对实践中遇到的困难。

张馨月

1.《人人都在说谎》评分:4.5

这本书的作者经过研究发现,世界充满了谎言,人类出于善意与恶意,无时无刻不在说谎,但传统的调研方法得出的很多结论都是错误的,误导了我们的认知。在这本应时的力作中,作者从一个个备受关注的话题切入,用他独特的数据分析方法得出了很多颠覆认知的结论。很多问题的答案正暗藏于看似没有关联的因素中,很多直觉和经验给出的答案与事实相差千里,大数据被合理使用其实比数据库的大更重要。而且书中的案例内容以及数据分析方法都很有趣。

这本书运用了很多鲜活的应用场景,由简至繁,证明了大数据是如何解构再重构这个世界的,又是如何大大延展人的认知边界的。各种故事中许多真相是违反我们直觉的,大数据为我们揭示了一个更真实的世界。

书中的内容给我带来的第一感受就是,作者以平易近人的语言,为我们解释何为“数据科学”。对于一个外行人而言,初次听到数据科学,会觉得手足无措,觉得这种对世界的量化认知是少数天才的任务,与自己无关。但作者写这本书的目的在于简化“数据科学”,告诉读者,好的数据科学远没有人们想象的那么复杂。数据科学的核心问题在于发现不同的模式以及预测一个变量如何影响其他变量。而人们一直在做这件事情。

起初被这本书吸引是因为书的题目叫“人人都在说谎”。后来知道之所以这句话作为书名,是因为作者告诉我们,我们常常运用自己的直觉来了解世界的运输方式,但这种感觉往往是不确切的,而且我们在很多情况中会隐藏真实的信息,我们需要用数据来解释真相,使其清晰化。

书籍的优点在于里面的案例都很生动,且从作者自身出发讲述了很多有关数据科学的故事,比如探究自己长大为什么没有成为一名NBA篮球运动员,或者是作者的祖母为什么可以凭借自己的经验给出比其他家庭更好的择偶建议…书中还有很多这类真实事例,生动有趣。从我的角度来看,不足之处是缺乏一些涉及数字的分析过程,若是加入一些案例的简单的数据分析过程,对作者而言,也许会更有说服力。

小 tip:二层阅览室,只能在馆内阅览,或提供6个小时的外借服务,若超时不还,罚款 1 元/小时。:)

2.《大数据与治理创新》评分:4

本书主要内容是强调大数据的巨大作用不仅表现在经济的转型升级上,还表现在国家的治理创新上。本书对数据治理、政府治理和社会治理这三个方面的相关问题进行了初步探讨,包括数据治理与数据价值实现、数据开放共享的精细化治理与隐私保护、数字政府与数字公民建设、数据思维与领导干部的数据决策、慈善资源和志愿服务的精准供给与衔接、老龄化社会中的智慧养老问题、共享生活化的生成逻辑与治理创新、大数据在舆情监测中的应用与超越。

3.《Spark SQL内核剖析》评分:4

这本书不是一本入门级的教程。通过大数据的课堂上了解到,Spark SQL是Spark技术体系中较有影响力的应用。这本书主要是从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算子和 Join 算子的实现与执行、Tungsten 优化技术、生产环境中的一些改造优化经验等。这本书不属于入门级教程,属于“小白不友好”系列书籍,但对大数据、分布式计算和数据库系统实现感兴趣的研究人员应该会很有帮助。

4.《数据化决策》评分4.3

作者道格拉斯在书中宣言:“一切皆可量化”,作者在书中解决多种生活与商业问题,任何主体,如健康,幸福感,顾客满意度,IT安全,投资风险,品牌价值,组织灵活性,在这本书中都能找到量化的办法。这本《数据化决策》生动直观地介绍了一些简单易行的实用技术,趣味性、可读性都很强,而且具有很高的实用价值。

5.《Hadoop与大数据挖掘》评分4.4

这本书主要讲解了基于Hadoop技术栈进行大数据挖掘与分析,教会读者零基础快速掌握Hadoop技术栈,以及基于它的大数据挖掘与分析的流程和方法。全书核心内容分为两部分。Hadoop技术栈:详细讲解了Hadoop、Hive、HBase、Spark、Flume、Kafka等大数据技术的基础、原理、应用,通过这部分内容读者能对Hadoop技术栈有从宏观到微观的了解。2.Hadoop大数据挖掘:通过3个综合案例,逐步展示了基于Hadoop的大数据挖掘的完整流程和方法。与大数据这门课程的教学比较契合,如果有同学想进一步学习,这本书应该会提供很多帮助。

周珂伊

  1. 《被算法操控的生活》 4.3

这是一本有关数学在现实生活中如何应用的作品,在这本书中,作者引领我们开启了一段有关算法的独特旅程,通过采访那些在算法研究领域工作的科学家以及动手进行有趣的数学实验,作者给我们介绍了那些能够分析我们,影响我们甚至会变得比我们还像我们的算法。通过这本书我们可以明白谷歌搜索是否存在种族歧视和性别歧视,为什么选举预测有如此大的偏差。作者还深入浅出的告诉我们到底是什么算法在支撑着AI。作者一步步向我们揭示了目前算法对大数据的利用情况并且告诉我们算法并没有我们眼见的那么神奇,在算法和人工智能面前,我们不必谈虎色变。书中内容主要分为三个部分,第一部分是算法在监视我们,第二部分是算法想控制我们,第三部分则是人工智能的未来,写的非常清晰。

2.《大数据与智慧社会》 4.6

在大数据时代,数据科学帮助我们从数据中认识到人类社会的复杂行为模式,这本书能够帮助我们从技术,思维等维度全面学习大数据知识,系统培养对大数据的认知。这本书系统地从大数据起源,大数据哲学本质,大数据应用案例等不同的角度为我们展示有关大数据的图谱,首先概述了大数据的哲学本质,技术现状和发展趋势,然后详述了大数据的技术框架,大数据储存和大数据处理技术。书中详细地介绍了Hadoop的基础组件,包括HDFS,Mapreduce,YARN,zookeeper等我们上课所学的内容,也包括Hadoop的常用组件,比如Hive,Hbase等,仔细介绍了大数据在生活中的多数应用以及不同领域的应用,感觉还蛮有意思的。

3.《蓝鲸法则–大数据之道》 4.2

作者通过用蓝鲸法则这个新鲜的名词来引入他对大数据的观点,感觉让人耳目一新。蓝鲸法则强调简约,而大数据给人的印象则是繁杂,因此作者提出用蓝鲸的简约来化解大数据的繁杂,可以说是当下技术前进的一个“退步之选”,但确实更多的懂得删除和选取才能更好更快地发展进步。书中内容主要分为六章,先是提出大数据的失真之美,然后提出作者的解决办法–简约,用数据的进与退来解密剖析,寻找更多信息。

4.《一本书读懂大数据时代》 4.0

获取和利用大数据,寻找过去现实世界中所没有的全新生活方式,社会治理机制和经济发展途径,开始成为人们关注的中心,这本书将让我们读懂大数据和大数据时代。这本书的内容分为10章,作者采用经典又有意思的例子一步步引出大数据的含义,大数据技术,大数据的前世今生,再慢慢介绍大数据时代的思维革命,介绍大数据的功能和作用,最后介绍相关挑战和创新。

5.《数据科学家的养成手册》4.7

这本书从众多科学家的趣事讲起,以逐步归纳和递进的脉络总结出科学及数据科学应该注意的要点,这本书时候大数据从业人员以及对大数据感兴趣的人。当下时代数据科学让我们越来越多地观察到人类社会的复杂模式,而数据科学家需要激情和耐心,需要具备商业头脑和数据素养,是一个值得付出时间和精力的领域。这本书的作者将数据科学放在一个更广阔的背景之中,从数学,统计学,方法论甚至认知论的层面出发,讨论数据科学的内涵和外延,并且作者敏锐地注意到数据科学和系统科学和认识论的深层联系,十分有意思。

这本书不以高深的数学理论研究作为目的,也不以某种计算机语言编程作为主线脉络,而是在一个个故事和工程中不断拾遗,寻找道理。这本书主要分为三个部分,包括认知篇:归纳了什么是科学,数据科学的范围,定义与实践价值,以及辩证思维,哲学和实验等关系问题;其次是分化篇:重点介绍了数据科学与现代社会各行业联系最紧密的统计学,信息论和算法学,另外把混沌论作为一个知识点进行补充;最后是实践篇:沿着数据生命周期进行演进,按照采集,存储,统计和建模,算法,可视化和分析,决策和支持的路线进行,对各个环节的注意事项和思维方式都做了探讨。

这本书对于我这样的初学者来说,提供了一个全面的学习指南,让我可以系统地学习和掌握数据科学的基础知识。书中提供了大量的实际案例和问题,帮助我将理论知识应用到实际项目中,因此我能够更好地理解和掌握所学知识。另外,我觉得这本书的语言通俗易懂。作者用简单明了的语言解释复杂的概念和算法,使得我能够更容易理解和掌握。此外,书中还提供了大量的图表和示例,有助于我更好地理解和应用所学知识。

我认为《数据科学家养成手册》是一本很好的入门书籍,适合那些对数据科学感兴趣的读者。它提供了全面的知识和实践指导,让我能够系统地学习和掌握数据科学的基础知识。然而,对于那些希望深入学习和进行实际项目的读者来说,可能需要参考其他更专业和深入的资源。总体来说,这本书给我提供了一个很好的起点,让我对数据科学有了更深入的认识和理解。

谢丽霞

1).《数据不会说谎》 评分:4.2

这本书带着读者尝试用大数据的角度来解读这个世界,本书的标题起的都是一些很有趣的标题,讨论的话题都是大家所关心的话题。本书内容分为三部分:第一部分可概括为“脑洞大开”,以淘宝、旅游、餐馆取名等不同的角度切入,说明数据可以用于做许多有趣的事情。第二部分数据与工作,包括了做公务员、二三线城市的衰落、创业等若干热门话题。第三部分数据与生活,包括用数据帮助理解生活现象、用数据挖掘生活中的趣味、以及用数字看房市三个专题。在看完之后,会觉得有些问题和我们的直觉完全不一样。

2).《重新定义大数据》 评分:4

大数据是人们获得新的认知,创造新的价值的源泉。随着移动互联网和物联网的发展,数据——这个曾经被忽视的东西,现在却得到爆发式增长。不管是消费者,还是智能设备,它们所产生的数据大大超过了人们的想象。《重新定义大数据》这本书提出了包括:块数据、主权区块链、秩序互联网、激活数据学、5G社会、开放数据、数据交易、数据铁笼、数据安全、数权法这些将引领未来发展的十大新趋势。新的大数据技术进入市场将带来新的增长,应当如何理解与运用大数据来指导未来的发展?这一切都可以从本书中找到。

3).《重新定义大数据》 评分:4

本书是数据技术领域具有里程碑意义的代表性著作,由国内知名的数据技术社区天善智能领衔组织和策划,首次将来自百度、腾讯、IBM、埃森哲、Teradata、永洪科技、达观数据、神策数据、同程旅游等20余家国内外在数据和互联网领域的领头羊企业的31位数据专家(CEO、CTO、VP、技术总监、架构师、高级分析经理、咨询总监等)联合在一起,分享了他们在数据领域多年来积累下来的*感自豪的方法、技术与思想,同时对很多技术难题给出了经验性的解决方案。

4).《数文明》 评分:3.8

从量数、据数、普适记录、人脸识别、以图搜车,到雾计算、城市大脑、单粒度治理、无匿名社会、量子思维……作为中国研究大数据的权威专家,作者在《数文明》一书中,以大数据为核心元素,抽丝剥茧,深入地阐述了这个大数据时代的文明社会——一个全新的数文明时代。

将大数据与人类文明融合在一起,这本书提供给我们的不仅是一种全新的叙事结构,它还将突破你的认知边界和思维极限,给你提供一个应对这个世界的全新的认知方法论。

可以说,《数文明》重构的不仅仅是我们的认知逻辑,还有身处这个数文明时代的生存逻辑——不仅包括每一个国家、每一种社会、每一家企业,还有每一个个体。

5).《人人可懂的数据科学》 评分:4.2

本书从数据科学发展演化史,数据科学定义,数据、数据集,数据科学生态系统,机器学习,数据科学标准任务,隐私与道德,发展趋势等角度,对数据科学展开了精彩的阐述。

本书精准界定了数据科学的术语、任务、生命周期,并介绍了主流的数据科学生态技术,及决策树、回归分析、神经网络、深度学习等常见机器学习算法。同时也涵盖隐私、数据道德等方面的话题,介绍了数据科学可能引发的隐私泄露、人为歧视、不公平,以及欧盟、美国等国家或地区针对数据因素保护、数据道德的立法。

6).《小数据之美》

数据本无大小,但应用场合、处理方式的不同却分出大小,是谓小数据。数据表示的是过去,但表达的是未来,所以应用数据不仅需要全量数据,也需要样本数据;不仅要了解相关性,更要明白因果关系;不仅要预见未来,更要量化自我。这就迫使我们从更广泛的角度理解小数据,梳理小数据与大数据的分野,从而将相关思路投射、印证于小数据,考察其核心特点和应用特质。本书系统、的阐释了小数据,揭示了小数据之美、小数据之道、小数据之魅、小数据之巅,揭示了数据的局面在变化、逻辑在更新、未来在演进。重新审视我们的时代,小数据,尽管仍笼罩在迷雾中,但其已经开始在我们脑海中浮现出整体的轮廓。

对我的帮助:

我学习到了传统意义上的小数据是通过目前主流软件工具可以在合理时间内采集、存储、处理的数据集。经典的数理统计和数据挖掘知识,可以较好地解决这类问题。而大数据时代下的小数据,是一类新兴的数据,它是以个人为的的数据,是我们每个个体的数字化信息,因此,也有人称之为“iData”。这类小数据跟大数据的根本区别在于,小数据主要以单个人为研究对象,在于,即对个人数据深入的的挖掘;而大数据则侧重在某个领域方面,在大范围、大规模数据收集处理分析,侧重在于广度。

小数据更加“以人为本”,认识一切数据存在的根本,人的需求是所有科技变革的动力。可以预见,在不久的将来,数据革命下一步将进入小数据时代。通过数据分析提高销售水平和服务质量,是企业未来发展的重要手段。目前,我国小数据的分析和应用虽然处于初级阶段,但是有不少企业已经可以对现有数据熟练地进行分析,并且可以把握数据中的变量,充分利用小数据分析结果对公司进行发展预测。不难看出,这些企业没有走大数据路线,而是反其道而行之,走起了小数据分析和应用路线,并且将小数据应用于企业运营过程中,结合小数据的人文因素,引入社会和心理等因素,能够、多维度地进行分析,因此的结果将更加准确。这也是未来小数据的发展方向和趋势。

另外,为了使得小数据的分析能够更加、准确,进而能够做出更加有预测性、有价值的决策,使其应用于企业运营过程中,小数据预测对人才也提出了要求:有统计学、商业分析和自然语言处理能力,能够掌握数学、统计学、计算机等更多方面的知识。

优点:

1、定义自我与用户的需求,寻找小数据的高价值。

2、发现大数据忽视的盲点与机遇,用小数据发现新的商业与趋势。

可以改进的点:

1、 小数据的概念不是很清晰。

2、 内容太冗杂,重点不明确。

李安琪

1、《被算法操控的生活》4.5分

这本书主要讲了算法对我们日常生活的影响。它介绍了现代社会中算法对个人行为、决策和思维的影响,以及算法背后的商业和政治动机。这本书虽然讲算法,但内容有趣不枯燥,值得一读。

(1)对图书的探索

该书首先介绍了算法是什么,它们如何工作以及为何对我们产生如此广泛的影响。它深入探讨了算法对个人隐私和个人数据的收集、分析和利用,以及它们如何通过推荐系统和个性化广告影响我们的购买决策和消费行为。

书中还提到了算法对社交媒体和新闻平台的影响。它说明了算法是如何根据我们的兴趣和行为个性化地推送内容,从而形成信息茧房,影响我们对世界的认知和理解。此外,书中还涉及了算法在政治领域的运用,以及它们如何塑造选民意向、政治言论和舆论形势。

在探讨算法对我们的生活的影响时,该书也提供了一些反思和建议。它鼓励读者了解并保护自己的数据隐私,提倡透明度和责任感的算法设计,以及更加批判地思考和使用算法带来的个性化推荐和定制化服务。

总之,这本书书向我们展示了社交媒体、搜索引擎如何收集我们在网上留下的痕迹,并通过算法对其加以利用。我们的目的是通过运用数据和算法让生活变得更美好,但事实真的如此吗?数学家凯西・奥尼尔在《算法霸权》一书中阐述了我们对算法无处不在的滥用,从评估老师的教学成果、在线推销大学课程,到提供民间信贷、预测回到社会的犯人再次犯罪的可能性。她的结论有些让人毛骨悚然:算法随心所欲地作出与我们有关的决定,根据的仅仅是一些可疑的假设和不准确的数据。

(2)优点

该书通过深入分析算法在我们生活中的应用,揭示了算法对个人、行业和社会的深远影响,书中提供了许多真实的案例和故事,帮助读者更好地理解算法如何塑造我们的日常生活和决策。此外,该书依据大量的科学研究和统计数据,为读者呈现了算法如何影响我们的偏好、消费习惯和个人隐私。通过讨论算法对社会和伦理的影响,这本书也会引发人们对技术和创新面临的伦理和政策问题的思考。

(3)缺点

首先,该书着重于算法的负面影响,对于算法在个人和社会发展中的积极作用没有全面介绍。其次,尽管该书深入剖析算法的问题,但它未能提供明确的解决方案或建议,给读者留下一些困惑。最后,该书的内容较为专业,对于没有相关背景知识的读者可能会较难理解。

(4)改进意见

这本书可以拓展一些算法对我们产生的积极影响,全面分析算法在当前社会中起到的作用。另外,对于一些算法带来的问题,应该提供一些解决方案。

2、《人人都会数据分析——从生活实例学统计》4分

这是一本介绍数据分析和统计学原理的书籍。它主要通过生活实例来引导读者学习如何应用统计方法和数据分析技术解决实际问题。

3、《大数据战争:人工智能时代不能不说的事》3分

这本书讨论了大数据和人工智能对社会和个人带来的各种影响和挑战,并呼吁人们积极面对和解决这些问题,以确保大数据和人工智能的可持续发展和良好应用。

4、《Hadoop数据分析》4分

这本书对于想要学习和应用Hadoop进行大数据分析的读者来说是一本非常实用的指南。它不仅介绍了Hadoop的基本原理和架构,还提供了丰富的实例和案例,帮助读者更好地理解和应用Hadoop进行数据分析。

5、《大数据时代》3.7分

该书提供了对大数据的深入理解,并探讨了大数据对社会、隐私、安全和经济的重要影响。它为读者提供了一个思考大数据时代问题的框架,同时提供了应对大数据挑战和利用大数据机遇的建议和指导。

沈国旺

《大数据时代》–4.3分

《大数据时代》是一本引人入胜的书,它深入解析了当今信息爆炸的时代背景和大数据对社会、经济、科技等各个领域的巨大影响。作者以坚实的理论基础和生动的案例,向读者展示了大数据如何改变我们的生活方式、商业模式和决策方式。从个人隐私保护到数据安全,从营销决策到医疗健康,这本书覆盖了大数据时代的方方面面。无论你是对大数据感兴趣的专业人士,还是想要了解信息时代的普通读者,都能从中获得丰富的知识和启发。读完《大数据时代》,你将深刻理解大数据的力量,并能更好地应对未来的挑战和机遇。

《Python编程从入门到实践》–4.8分

《Python编程从入门到实践》是一本极富实用性的Python编程指南。无论你是初学者还是有一定编程基础的读者,这本书都能帮助你轻松入门Python,并逐步提升你的编程技能。作者以简洁明了的语言和丰富的实例,引导读者逐步理解Python的核心概念和常用功能,同时通过实践项目的方式,帮助读者将所学应用于实际场景中。无论是数据分析、Web开发、人工智能还是自动化脚本,这本书都能提供你所需的知识和指导。

《Python编程从入门到实践》是一本非常优秀的Python编程入门教材,作者在书中深入浅出地讲解了Python编程语言的基础知识,涵盖了从基础语法、数据类型、函数和面向对象编程等方面的内容。此外,本书还提供了大量的实践项目,帮助读者将理论知识应用到实际中去,并逐步提高编程技能。

阅读这本书对我的帮助非常大。作为一个编程初学者,我曾经遇到过很多问题,例如如何正确地使用if语句和while循环、如何调试程序等等。通过学习这本书,我系统地掌握了Python编程的基础知识,并且通过动手实践各种项目,解决了许多问题,提高了编程技能。

此外,这本书的优点也很明显。首先,它讲解的内容全面且详细,非常适合初学者。其次,本书提供了大量的实践项目,这些项目不仅可以帮助读者巩固所学的知识,还可以培养读者的编程思维和实践能力。最后,本书还提供了许多额外的资源和链接,方便读者进一步深入学习。

然而,这本书也有一些缺点。其中最大的问题是,该书的实例代码只是简单的代码示例,并没有详细的注释和解释。读者需要通过阅读后面的说明来理解代码的含义,这可能会增加读者的阅读难度。

总之,《Python编程从入门到实践》是一本非常优秀的Python编程入门教材,它详细介绍了Python编程语言的基础知识,提供了大量的实践项目,对初学者非常有帮助。虽然存在一些小问题,但总体来说,这本书还是值得一读的。

《小白学数据挖掘与机器学习——SPSS Modeler案例篇》–4.8分

《小白学数据挖掘与机器学习——SPSS Modeler案例篇》是一本极具实用性的数据挖掘和机器学习入门指南。无论你是初学者还是已有一定的数据分析基础,这本书都能帮助你快速上手SPSS Modeler,并掌握数据挖掘和机器学习的核心概念和技术。作者以简洁清晰的语言和丰富的案例,引导读者逐步学习SPSS Modeler的使用方法,并通过真实的数据集和实际的业务问题,演示了数据挖掘与机器学习的应用场景。无论是市场营销分析、客户行为预测还是金融风险评估,这本书都提供了详细的案例分析和实践经验,帮助读者理解算法原理,并将其应用于实际项目中。

《数据大泄露:隐私保护危机与数据安全机遇》–4.3分

《数据大泄露:隐私保护危机与数据安全机遇》是一本深入探讨当今数据隐私保护问题的重要著作。在互联网时代,现代社会的各个方面都已经数字化,数据已成为最宝贵的资产之一。然而,大规模的数据泄露事件已经不再是个案,不仅对个人、企业造成了重大影响,更对社会稳定和公共利益带来了威胁。本书讲述了数据大泄露背景下的隐私保护危机,剖析了数据安全机遇带给我们的风险与挑战,并提出了改进数据治理体系、保护隐私安全的有效方法。 本书内容详实深入,既包含了理论研究,也涵盖了实践案例和政策建议,内容系统且具有针对性。它为读者提供了思考隐私保护问题的新视角和方法,对于提高个人和企业的数据安全意识、应对数据泄露带来的风险和挑战,都具有重要的参考价值。

《人人都在说谎:赤裸裸的数据真相》–4.5分

《人人都在说谎:赤裸裸的数据真相》是一本引人深思的力作,揭示了当今信息时代中的数据谎言和误导。在互联网时代,我们被大量的数据包围着,但其中的真相却越来越模糊。作者通过深入研究和案例分析,揭示了数据背后隐藏的偏见、错误和操纵。从统计学的角度出发,书中详细讲解了常见的数据误解和错误推断,并教授读者如何识别和纠正这些问题。不仅如此,本书还提供了实用的技巧和方法,帮助读者更好地理解和解读数据,从而避免被误导或欺骗。

王伟彤

① 《洞见数据价值——大数据挖掘要案纪实》4.2

当涉足大数据挖掘的领域时,《洞见数据价值——大数据挖掘要案纪实》算是一本好书。这本书通过深入剖析实际案例,能够将我们引至数据的更深层的含义,揭示了数据挖掘的实践奥秘。这本书不仅理论与实践相辅相成,更融合了丰富的应用场景。

② 《人人都在说谎》4.6

这本书是由前谷歌数据科学家塞斯·斯蒂芬斯所著,该书通过深入挖掘大数据,揭示了人们在互联网时代的真实行为和内心想法。书中以生动的案例和故事为依托,展示了数据背后的蕴藏的信息。

作为一名互联网数据专家,作者说到的“我每天都会跟踪记录人们浏览网页时留下的数据痕迹。根据人们点击的品读,我努力解读他们真正想要的、真正要做的和他们的真面目。”似乎是这本书最好的前言了。

本书共有三个部分,分别是第一部分-大数据、小数据;第二部分-大数据的力量;第三部分-大数据:请小心轻放。书中通过对Google、社交媒体等平台的搜索和浏览数据进行分析,揭示了人们在网络世界中表露的真实想法和行为,与他们在现实生活中所展示的有时截然不同。作者通过大数据的手段,揭示了人们在隐私掩饰下的真实态度,从而呈现出一个更真实、更直观的人类社会。

这本书所展现出来的内容与我们的生活息息相关,或者说并没有像科学研究一样深不可测,甚至会让人觉得他的这些发现仅仅是为了发现。或许是因为人们思考问题的角度不同,对于不同专业/处于不同工作岗位上的人来说,这些发现没准能为他们带来工作上的创新。对于非社会科学专业的我们来说,作者对现有数据的发掘及思考值得我们借鉴。此外,读完这本书之后容易让人有发掘有趣现象的冲动,我想这是因为作者在书中展现出的其数据来源的门槛似乎很低,或者是被社会科学所吸引。当然,如果想要得到作者给出的一些量化结论还是需要一定的分析方法的。

这不是一本关于技术实操的书。这本书从数据的角度出发,向我们展示了数据的魅力,甚至让我们有了挖掘并分析数据的冲动,或许作者给出的这些案例能进一步加深我们对“数据”的理解,这应该也算作这门技术的一部分。从这个角度讲,我认为这本书还是比较值得阅读的。

改进的话,或许可以用某种逻辑关系或者某种剧情发展将书中提到的案例串联起来,会更有趣。

③ 《活用数据——驱动业务的数据分析实战》4.5

这本书突显了实战导向,将数据分析直接应用于业务场景中,能够让读者真正理解数据在业务决策中的实际作用。其着眼于业务驱动,不单单强调技术本身,更是关注如何通过数据分析推动业务发展。

④ 《数据要素——领导干部公开课》3.9

该书以“数据要素与数字经济”为主题,分为“什么是数据要素”“数据要素与数字经济的发展”“数据要素发展面临的挑战”“数据要素与数字经济的未来”四章,分别从数据要素的定义特点、应用现状、完善路径、价值潜能等方面进行深度解析和深入探讨。

⑤ 《数据产品经理宝典——大数据时代如何创造卓越产品》3.9

本书内容涵盖了数据产品经理应该知道和掌握的基础知识——从每个优秀的数据产品经理都应当关注的“效率”问题出发,分别从商业知识和技术知识两个角度,针对什么是数据产品、数据产品诉求的产生和类型、数据产品的实现思路与常见技术方案等关键问题进行讲解。

邱志成

1) 《Hadoop+Spark大数据技术》(ISBN 978-7-302-51427-5)

评分:3

推荐语:这本书不是对Hadoop和Spark相关原理进行纯理论的阐述,而是提供了丰富的上机实践和范例程序,并辅助以视频讲解,极大地降低了大数据初学者的入门门槛,但缺乏理论深度且资料较陈旧。

2) 《Scala和Spark大数据分析——函数式编程、数据流和机器学习》(ISBN 978-7-302-55196-6)

评分:4

推荐语:区别于第一本书,这本书的受众更多是具备数据库、大数据、编程以及机器学的等方面的基础知识人群。换言之,若想发挥这本书最大的价值,你可以是机器学习领域的一个新手,但你不能是IT领域的新手。

3) 《数据清洗》(ISBN 978-7-302-55087-7)

评分:4

推荐语:在大数据领域,海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整的、重复的以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的效率,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

4) 《大数据可视化技术与应用》(ISBN 978-7-302-54750-1)

评分:4

推荐语:数据可视化是关于数据视觉表现形式的技术,也是科学、设计和艺术三个学科的交叉领域,掌握了大数据的处理方法之后,采取美观、科学的展现形式也是有极大必要的。

5) 《谷歌数据分析方法——以用户为中心的数据分析思维框架》(ISBN 978-7-111-65165-9)

评分:5

推荐语:这本书阐述了如何衡量、分析目前互联网上出现的新技术和应用,并在此基础上给出范例。这些新技术和应用包括社交媒体、视频、移动互联网上以用户为中心的设计等。作者通过对传统数据处理方法的改造,对互联网数据进行了抽丝剥茧般的分析,提出了具体,简单以及更先进的方法,重要的是这种思维对以后数据处理有启发性的帮助。

5) 《数据挖掘原理:第四版》(ISBN 978-7-302-59649-3)

书籍的价值:

本书提供了关于数据挖掘的广泛介绍,覆盖了数据挖掘的基本概念、技术和方法。这对于初学者来说是一本很好的起点,因为它不仅涵盖了核心概念,还提供了实际的应用示例。书中的章节结构非常清晰,每章都涵盖一个特定的主题,这使得读者能够系统地学习和理解不同的数据挖掘技术。此外,自我评估练习有助于读者巩固所学知识。本书适用于不同领域的读者,包括计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生。这种多领域的适用性使其成为一本有用的参考书。最后,书中引用了大量实际的数据集和案例,这有助于读者将理论知识与实际问题联系起来,理解数据挖掘在各种应用中的重要性。

不足之处:

书中重点介绍了基本技术,而不是展示当今最新的数据挖掘技术。考虑到数据挖掘领域的快速发展,一些最新的技术和趋势可能没有得到充分的覆盖。因此,对于那些追求最新进展的读者来说,可能需要额外的资源。此外,书中涉及了大量数学公式和复杂的符号,这可能会让一些读者感到困惑。虽然数学在数据挖掘中很重要,但可能需要更多的解释和示例来帮助读者更好地理解这些概念。

改进建议:

为了使这本书保持时效性,可以考虑定期更新其中的内容,以反映数据挖掘领域的最新进展。这可以通过在线资源或附加章节来实现。还可以增加更多实际案例和示例,帮助读者将理论知识应用到实际问题中,使概念更具实际意义。在数学部分增加更多的解释和示例,以帮助那些对数学不太熟悉的读者更好地理解。最后,可以提供在线资源,如数据集、代码示例和练习答案,以帮助读者更好地练习和应用所学的知识。

总的来说,这本书《数据挖掘》是一本很好的介绍性教材,特别适合初学者。然而,为了保持其实用性,需要定期更新以反映数据挖掘领域的最新趋势,并提供更多的实际示例和数学解释。这将有助于更广泛的读者更好地理解和应用数据挖掘技术。

崔睿溢

《python编程 从入门到实践》评分:3

这本书提供了一些编程语言的基础知识,同时提供了一些经典案例来帮助学习编程。可以用这本书来辅助视频和其他代码例子一起学习python语言。

《算法霸权》 评分:5

揭示了数据和算法的一些潜在问题,例如数据隐私、算法偏见和失衡、算法对人类决策权的影响等等。我们生活在一个依赖“算法”的时代,它对我们生活的影响越来越大,我们去哪里上学,我是不是应该贷款买车,我们应该花多少钱来买健康保险,这些都不是由人来决定的,而是由大数据模型来决定的。从理论上来说,这一模型应该让社会更加公平,每一个人的衡量标准都是一样的,偏见是不存在的。但是,正如作者书里所揭示的那样,事实并非如此。我们今天所使用的这些数学模型是不透明的、未经调节的、极富争议的,有的甚至还是错误的。最糟糕的是,数学模型和大数据算法加剧了偏见与不公。

《被算法操控的生活》 5

在本书中,作者通过采访那些在算法研究领域工作的科学家,以及动手进行有趣的数学实验,他介绍了那些能够分析我们、影响我们,比如谷歌搜索是否存在种族歧视和性别歧视,或者为何选举预测有时会与真实的选举结果间存在巨大的偏差。

《数据即未来:大数据王者之道》评分:4

作者结合自己的亲身经历讲述数据科学从项目准备、解决方案构建到姜木交付的全部过程,提供一些案例,教授大家解决现实世界中以数据为中心的问题。

《数文明》4

作者以到数据为核心,介绍了人类、商业世界、个人世界的数据文明。人类的数据文明——它将是互联网的下半场;商业世界的数据文明——商业世界将迎来重塑和再造;以及个人世界的数据文明——我们该如何从不完整的个体跨跃到高能个体。

《算法霸权》

1)简单介绍与价值

另一本书《算法霸权》则由数学家凯西・奥尼尔撰写,阐述了人们对算法无处不在的滥用。从评估老师的教学成果、在线推销大学课程,到提供民间信贷、预测回到社会的犯人再次犯罪的可能性,所有这些都要依靠算法做出决策。作者的结论:些算法完全可以随心所欲地作出与我们有关的决定,其依据仅仅是一些可疑的假设和不准确的数据,这种算法和模型在现实生活中加剧了偏见与不公。

举个例子来讲,作者在书中模拟了亚马逊网站推荐购物算法——“大家也喜欢”算法模型,这种算法虽然能够帮助我们找到心仪的商品,但是它也存在一些局限性。这种算法基于过去的消费行为建立了商品之间的联系,从而让你有一种你在选择的错觉。实际上,这个算法下的操作模式是与你喜欢同一类书的其他人已经做出了你可能做的选择。虽然这种算法很简单,但显然的是,这种算法并不能完全反映个人需求的变化。

算法可以让人更好的了解未来但是可能也会不知不觉操控我们,它不知不觉渗透进入我们的意识形态中,所以大家之后在日常生活中要学会思辨,所见所观并非可能并非“巧合”,而是在有心人的操控之下,所以要明确三观立场,保持理性,不要随波逐流。

2)优点与改进意见

书籍整体语言还是比较生动的,不枯燥(可能也是译者的功夫很好),用例子,深入浅出,比较有趣。作为拓展学习很好。没有太多缺点,但是可以优上加优,添加更多的图表来描述算法的运作过程,在感受到算法深入人心的力量的同时更加熟悉这些算法的运作过程。

原爽

  1. 《MySQL必知必会》 评分:4

这本书讲述了MySQL软件的使用和操作,我认为他的特点是全面和基础,并且实操>理论。在书的排版布局上也是由浅入深的,从了解MySQL、到使用MySQL,讲述了我们在日常使用过程中经常使用的一些语句以及他的用法。此外,该书还在最后阐述了有关“全球化与本地化”、“安全管理”、“数据库维护”、“性能改善”等进阶用法。唯一不好的就是该书讲述的MySQL版本过旧,不过作为学习MySQL基本操作还是很不错的。此外,可能是翻译等的原因,该书有些语句读起来不是很好理解。

  1. 《人人都在说谎:赤裸裸的数据真相》 评分:4.5

这本书挺有意思,有意思的点在于作者的发现总是与常人的认知是不一样的。作者的研究发现,世界充满了谎言,人类或出于善意或出于恶意,无时无刻不在说谎。书中举了许多实例,例如:有多少人买了书真正看完了?父母是否暗自喜欢男孩儿多于女孩儿?等,对于这些类似的很多问题,传统的统计调研方法得出的结论很多是错误的,误导了我们的认知。这本书从一个引人入胜、充满启迪和智慧的视角,巧妙洞察我们现在可获得的大量信息,为我们提供了实用的数据分析方法,同时也揭示了深深埋藏在数据背后世界本来的样貌。

  1. 《大数据时代》 评分:4.5

《大数据时代》这本书从思维、商业、管理三个方面阐述了在大数据时代下的变革。这些变革涉及人们生活的方方面面,其影响程度可以与两次工业革命相媲美。作者在第一部分提出了三个比较令人震惊的观点:第一,不是随机样本,而是所有数据,这里要求数据有很多。第二,不是精确性,而是混杂性,这里要求数据更杂。第三,不是因果关系,而是相关关系,这里要求数据要更好。这本书很好的讲述了所谓大数据时代下所具有的独特特点和变革,是一本较好的了解时代背景的书籍。

  1. 《干净的数据:数据清洗入门与实践》 评分:4.3

这本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。与其他侧重数据模型、方法等不同,该书较好地阐述了数据处理的相关流程,认为数据清洗是进行数据分析很重要的内容。数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

  1. 《小白学数据挖掘与机器学习——SPSS Modeler案例篇》 评分:4.7

这本书的可读性很好,它用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。该书首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了SPSS工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一张的小例子和漫画很吸引人,让人容易理解。

  1. 《小白学数据挖掘与机器学习——SPSS Modeler案例篇》

这本书的主要内容主要围绕数据挖掘和机器学习在SPSS Modeler中的应用展开。书中首先介绍了数据挖掘和机器学习的基本概念和常用算法,包括决策树、聚类、关联规则、神经网络等。接着通过多个实际案例,详细介绍了SPSS Modeler的使用方法和技巧,帮助读者了解如何在实际项目中应用数据挖掘和机器学习技术解决问题。同时,书中还涵盖了数据预处理、特征选择、模型评估等重要步骤,帮助读者全面掌握数据挖掘和机器学习的流程。通过本书的学习,读者可以获得一定的数据挖掘和机器学习的理论知识,并能够灵活运用SPSS Modeler工具进行实际应用。

对我的帮助:

首先SPSS对于我的专业(应用统计)来说是一门非常基础的软件,老师们或者大家都对SPSS看法比较不太好,认为SPSS是一门用鼠标就可以完成的软件,它相对于python,r,Stata来说是比较低级的软件。原来我对于SPSS的操作仅限于,我需要做说明分析,就百度一下,按照其操作步骤一步一步进行。但其实,SPSS的功能很强大,它帮助你不需要代码就可以应用决策树、因子分析等模型进行数据分析,这对于不擅长写代码的人来说是一个巨大的帮助。并且它帮助我更深层次的了解到SPSS的巨大功能,并且该书的语言通俗易懂,通过一个个现实例子和漫画让深入理解了各类模型的实现原理。

优点:

缺点:

王华雄

(1)《我们的大数据时代》,李广健,化柏林等;

评分:5分;

推荐语:能够帮助广大专业技术人员全面系统地掌握大数据相关知识和技能的基础性和系统性的书籍,全书力求通俗易懂,深入浅出,轻松读懂,应用大数据。(非常推荐!)

全书主要内容总结概括:

本书以基础性和系统性为导向,对当前大数据的概念进行了辨析,讨论了大数据的机遇与挑战,介绍了大数据的技术,讨论了大数据的管理,探讨了大数据的安全与应对,归纳了大数据的应用价值,全面展现了大数据的应用现状和未来发展方向。

全书共分为六章,每一章的总结概括如下:

① 第一章:大数据时代。主要介绍了大数据的基础知识。通过分析大数据时代来临的历史背景,引入大数据的基本概念、特点、分析理念和价值,梳理典型国家的大数据政策与计划,并结合其在当前商业运营和管理中的成功案例进行了说明。

② 第二章:大数据的机遇与挑战。本章主要结合当前大数据的发展现状和困难挑战,讨论当前公众对待大数据时代的态度,分析企业运营的商业模式及其产生的经济效益,分别就企业和专业技术人员展开论述了如何应对大数据的机遇和挑战。

③ 第三章:大数据的技术。主要介绍了大数据的采集、存储、预处理以及挖掘四个方面的技术。

④ 第四章:大数据的管理。本章主要通过介绍数据的再利用、数据重组、数据扩展、数据估值、数据折旧和数据废气的相关理论,梳理了大数据的数据创新方式,并结合其在当前商业运营和管理中的成功案例进行阐述,指出了数据创新的巨大商业价值。

⑤ 第五章:大数据的安全。本章主要介绍了大数据的安全相关方面的内容。通过介绍大数据概念出现以前常见的本地安全和网络安全问题,引出大数据时代的隐私安全和技术安全,对大数据时代所存在的各种安全隐患做了详细阐述,并提供了保证数据和信息安全的手段和方法。

⑥ 第六章:大数据的应用。本章主要通过案例系统地介绍了医疗卫生、科研教育、经济管理、社会服务以及其它相关领域的大数据应用现状和大数据对这些行业带来的影响,并探讨了各个领域中大数据应用的未来发展。应用现状部分主要围绕大数据如何支持各领域业务的发展展开论述,未来发展部分则主要阐述了大数据应用的未来趋势。

值得读之处:

在我看来,本书值得读的地方有以下几个方面:

一是本书最大的亮点和吸引我的地方在于它的语言非常的通俗易懂,非常适合大数据初学者进行学习和阅读。它将大数据科学中很多晦涩难懂的专业术语尽可能通过通俗的语言解释和阐述,或者通过举例子的方式进行论述,极大地减轻了阅读的障碍,尤其是对于我这样的初学者来说,本书非常友好。通过对这本书籍的阅读,我已经初步掌握了大数据的基本理论、方法、技术与应用等方面的基础知识。

二是本书的内容具有基础性和系统性,不管是大数据科学的初学者还是已经有一定学习基础的人都能够从中有所收获。这本书中所讲的内容基本都是大数据科学技术中比较基础的知识,但是讲的非常的全面,系统性非常强。关于大数据的一些根本问题,该书讲述的非常清楚,比如大数据如何产生、大数据的特点、大数据的分析理念、大数据有什么价值等等。该书也对大数据的主要技术(采集、存储、预处理、挖掘技术)、大数据的管理(生命周期管理、数据再利用、数据重组与扩展、数据估值与折旧、数据废气)、大数据的安全(本地安全、网络安全、隐私安全、技术安全)、大数据的应用(医疗卫生领域、科研教育领域、经济管理领域、社会服务领域等)等问题进行了全面和详细的论述。此外,该书还对大数据的目前的现状以及为了的发展趋势进行了讨论,可以引发我们进一步的思考。总之,通过该书的阅读,我从大数据科学方面的小白逐渐开始对其中的一些知识有了自己的理解和思考,可以说已经逐渐入门。

三是案例丰富,读起来不是那么枯燥乏味,可读性非常强。本书中每一章节中的大部分地方都尽可能例举我们日常生活中可以接触到、听到或者看得到的例子来进行举例说明,比如说第一章在讲大数据的价值问题时,其中一个价值点在于预测,该部分就例举了2014年巴西世界杯期间包括百度、微软、谷歌在内的国内外互联网公司通过大数据技术对比赛结果进行了预测,准确率高达90%以上。类似的例子在该书中随处可见,通过这些众多的案例,极大地增加了阅读乐趣,从而提升了该书的可读性。

缺失之处:

我认为,本书无论从语言还是内容上都十分地不错,但也存在非常小的美中不足的地方:

一是部分案例在讲解的时候缺少具体的实操环节,即如何通过代码去实现该功能的过程。比如在讲解大数据的采集、存储、预处理及挖掘技术的时候,书中只是阐述了这些功能如何实现的一个框架流程,但是不涉及具体的某一个实际例子然后通过具体的代码去实现该功能的过程。虽然对于这些功能实现的整个流程阐述的非常详细和清楚,但美中不足的是缺乏具体的代码实现该功能的环节。

二是部分内容的时效性可以做进一步的提升。由于本书是2015年出版,相较于如今的2023年,大数据技术又往前发展了8年时间,这段时间中大数据技术又有了诸多新的内容,大数据技术在各行各业中又有了更深入的应用,大数据技术的发展方向和趋势与之前相比 也有了不同。因此,本书的内容的时效性可以做进一步优化提升,如第二章中大数据的机遇与挑战在当前情况下又有了新的改变,第六章中大数据的应用领域又有了增加,应用的范围不断扩大,应用的深度也在加深等等。

如何改进:

根据前一部分提出的该书的美中不足之处,可以做以下改进:

一是在必要之处增加一些通过代码如何一步步实现该功能的例子,加入动手实操环节,可以进一步提升该书的阅读乐趣和体验感。

二是增加一些近年来大数据科学发展更新的内容,已经一些具体的应用案例,增强其时效性。

最后,我始终认为该书对于一个大数据科学的初学者来说非常不错,可以让我们快速入门,搭建起大数据科学的基本理论框架,非常值得推荐给准备学或正在学习大数据科学的人。

(2)《Spark最佳实践》,陈欢,林世飞等;

评分:4.8分;

推荐语:本书循序渐进地介绍Spark的基本概念、核心思想、部署、开发,并提供了多个典型场景的解决方案,基于真实数据,用案例分析全面解读大数据应用设计。即便是零基础的Spark读者也可以从中受益,而对Spark已有所知的读者则能够更深入地了解其运行机制和精髓。

(3)《数据处理与管理(Excel、Access及文献检索)》,白玥,陈志云等;

评分:4.8分;

推荐语:以 Excel、Access及文献检索三部分作为核心内容,通过大量非常实用的例题、实验和习题,把晦涩难懂的基本概念和不易掌握的软件技巧,深入浅出地展现出来,并提供全部例题及Excel函数的索引,学习时可以非常方便地查询和选用。

(4)《大数据技术前沿》,阮彤,王昊奋,陈为等;

评分:4.7分;

推荐语:以大数据可视化为切入点,通过自然语言处理、社交网络挖掘、语义网络与知识图谱三方面非结构化数据处理技术,阐述大数据经典应用;利用基于图数据库、内存计算、分布式存储系统的大数据存储与管理作为大数据平台支撑;围绕大数据环境下的隐私保护问题,探讨了大数据安全技术,进而探讨基于众包技术扩充数据来源与提高数据质量。通过系统、多方位地总结大数据的技术前沿,使得读者可以快速了解大数据在学术方面的最新成果。

(5)《写给大忙人的Hadoop2》,(美)Douglas Eadline著,卢涛,李颖 译;

评分:4.5分;

推荐语:本书的核心内容是如何在Apache Hadoop2生态系统中进行大数据计算的基础知识,非常适合那些想要了解Hadoop2,但又不想陷入技术细节的读者,新用户、系统管理员和开发运维人员都能够通过浏览本书快速获得很多重要的Hadoop主题和工具。

米宇佳

  1. 金大卫《大数据分析导论》,评分3.8:这本书介绍了计算机的基础知识和操作系统、大数据分析基础、计算机网络基础知识及数据获取、数据处理和数据分析理论与方法等内容,以大数据分析技术及应用为核心,第一章介绍了计算机与信息技术的基础内容,第二章介绍了大数据分析技术的基础内容,第三章介绍了计算机网络的基础知识和网络爬虫工具的相关内容,以及获取大数据分析所需的原始数据集的方法;第4章和第5章分别介绍大数据技术应用过程中非结构化与结构化的数据处理和展示方法。第6章介绍了大数据分析相关理论与方法。

  2. 松本健太郎《大数据:挖掘数据背后的真相》,评分4.1:这本书围绕当今最受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、「安倍经济学」的成果、东日本大地震后的状况、相对贫困、失业率的下降、全球变暖问题、减肥、恩格尔系数的上升等 10 个主题进行数据解读,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。

  3. 梅宏《数据治理之论》,评分4:这本书从数据治理的起源和现状、数据治理的体系框架出发,针对不同学科对数据治理问题的认识进行探讨和思考。书中的第一篇介绍了数据危机的概念,数据治理的理论与实践现状,以及数据治理的基本思路和体系框架。第二篇分别从信息资源管理、法学、经济学、管理学和数据科学五个学科来讨论数据治理,采用不同的研究方法,从不同的视角来分析数据治理面临的挑战,并从不同角度提出数据治理的方案。

  4. 道格拉斯《数据化决策》,评分4.7:这本书从名字上看很有智慧,作者将一系列生活化的问题用大数据进行量化,包括:如何衡量并未开口抱怨的顾客对服务或产品质量的不满意度、如何通过数学公式找到最适合你的另一半等。它的核心思想是“一切皆可量化”,而作者认为这个大胆的宣言是解决诸多生活和商业问题的关键所在。综上,本书专注于量化不确定性、风险和数据价值,提供了令人拍案惊奇的测算无形之物的简便方法,让我们仅仅基于已知数据就能准确决策,并展示了丰富而精彩的量化案例。

  5. 江青《数字中国:大数据与政府管理决策》,评分4.3:这本书展示了大数据在我国政府管理场景中的应用实践案例,全面展示了我国电子政务与数字化建设的成果,深度理解实施国家大数据战略的重要意义。帮助我们进一步认识和了解大数据的魅力和价值,直观地理解大数据运用与分析,在大数据的基础上进行有效的政务管理并做出正确的决策,从而提升组织和个人的数据素养。

  6. 蔡瑞初,郝志峰《大数据中的因果关系发现》,评分4.7:这本书和我的研究方向较为接近,作者将大数据和因果关系结合在一起,阐释了在大数据时代,如何探索海量、高维、观察性的数据背后的因果机制具有重要的商业价值和科学意义。本书从因果关系与相关关系之间的区别与联系出发,从因果关系模型、因果关系发现方法、因果关系与机器学习关系等角度对上述进展进行探讨。

  7. 《数据科学家访谈录》,评分4.7:这本书是当前全球最知名的25位数据科学家的深度采访集合,科学家们讲述了个人经历及其成长过程,以及在各自的职业生涯所面临的各种选项时所做出的选择,具有很高的参考价值。

本书主要采访了25位数据科学家,收集了来自不同领域的数据科学家的访谈和间接。本书的可读性之一在于其采访的数据科学家来自各种领域,包括金融、医疗、市场营销等。这些科学家从自身的角度出发,介绍了自己在职业生涯中遇到的一些问题和得到的启示。

本书有15个章节,每个章节包含了一位数据科学家的访谈,对应地,每章有一个相应的主旨,我们可以在每位科学家的访谈中学到很多东西。

通过阅读本书,我有以下心得体会:

  1. 充分体会到了跨学科的重要性。不仅仅是技术行业,像金融、医疗、市场营销等多个领域都需要数据科学家的专业知识和技能,因此数据科学家在工作中需要具备跨学科的知识和技能。除了数学、统计学和计算机科学,他们还需要了解特定领域的背景知识,如经济学、生物学或社会科学等。书中的访谈者也强调了综合知识和跨学科合作对于成功的数据科学项目的重要性。这一认识对我目前的研究方向非常有益。因为我的研究方向属于交叉学科研究,通过将统计学与医学、交通和金融结合起来,对复杂系统进行探索。因此平时学习一些其他领域的知识是非常有必要的。

  2. 虽然大数据带来了许多机遇,也极大的便利了我们的生活,但同时也存在一些挑战。书中的访谈涉及到了数据质量问题、数据隐私和安全性、数据可解释性等方面的讨论。数据科学家需要处理大规模数据、复杂模型和不确定性,同时也需要解决与业务决策者的沟通和合作难题。

  3. 书中还给予了读者关于职业发展的建议,以帮助读者在数据科学领域取得成功。书中提到的建议有:持续学习和保持好奇心、开展实际项目以强化技能、积极与同行进行交流和合作、培养解决问题和沟通能力等。对此,虽然我们尚未迈入职场,但是在平时的科研和学习中就要注意这些问题。

最后,附上我很喜欢的一位访谈者:RelateIQ 产品部副总裁 DJ Patil 说的一句话:如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。

总体而言,这本书通过数据科学家的真实故事和见解,为读者提供了对数据科学领域多样性和挑战的深入了解。它对于那些对数据科学职业感兴趣或正在从事数据科学工作的人们来说是一本有价值的读物。

本书的不足之处

总体来说,我觉得本书的结构安排很好,但有些部分用英语翻译到中文显得有些奇怪,所以有能力的话直接看英文原版会比较好,但书本身是没有问题的。

贾贝西

《数据天才:数据科学家修炼之道》,Vincent Granville著。评分4分。

这是一本跟数据科学和数据科学家有关的“手册”,它还包含传统统计学、编程或计算机科学教科书中所没有的信息。本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写API),所以借助《数据天才:数据科学家修炼之道》,现在就可以开始数据科学实践,并快速提升职业水平。

2.《大数据之美:挖掘、Hadoop、架构,更精准地发现业务与营销》,黄宏程著。评分4分。

本书从大数据的基本概念出发,深入解析了大数据应用的关键技术与应用。以大数据的数据挖掘技术、大数据的存储与处理、大数据应用的总体架构三方面为线索,详细阐述了大数据挖掘的诸多常用算法,介绍了Hadoop、HDFS及MapReduce等大数据存储与处理的关键技术与应用、大数据应用的框架与构架。本书以通信运营商及互联网电子商务等应用为背景,从典型实例的角度系统地介绍了大数据挖掘应用从目标构建、算法建模到程序实现,再到大数据分析及结果描述应用的整个过程,以期为读者提供从理论到实务的有效借鉴。

3.《大数据思维——从掷骰子到纸牌屋》,马继华著。评分4.5分。

数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野、更宽角度和更具有逻辑性的思维。本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在最通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。

4.《大数据主义》,史蒂夫.洛尔著。评分4.5分。

作者解释了大数据技术将如何引发一场新的革命,促进新一轮经济效率的提高和创新。互联网规模的海量数据集将被用于几乎各个领域、各个行业和各个企业,以进行探索、预测和提高效益。《大数据主义》重点关注那些处于数据科学领域前沿的年轻企业家,还有诸如IBM等为公司前景而在数据科学领域押下极大赌注的行业巨头。《大数据主义》还介绍了新的技术革命将如何改变人类的决策方式——人们将更加依赖于数据和分析,而不是直觉和经验;同样,它还将改变领导力和管理的本质。该书对读者而言是一本行业指南,它预测了行业动向,详细解释了个人和组织应该如何利用、保护并管理大数据,从而在变幻莫测的未来仍能立于不败之地。

5.《大数据时代》,维克托•迈尔•舍恩伯格著。评分5分。精读。

《大数据时代》这本书主要描述的是大数据时代到临人们生活、工作与思维各方面所遇到的重大变革。

文中清晰的阐述了大数据的基本概念和特点,并列出明确的观点。不管对于产业实践者,还是对于政府和公众机构,都非常具有价值。作者将本书分为3个部分。第一部分提出了大数据时代处理数据理念上的三大转变:抽样等于全体;要效率不要绝对精确;要相关不要因果;第二部分作者从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后一部分,作者描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。

本书观点掷地有声,作者观念高屋建瓴,从很多实例和经验中萃取普适性观念。例子详实丰富,囊括了进百个学术和商业实例。

引言提出了大数据将给生活、工作于思维带来重大的变革。一个例子是2009年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。对于飞速传播的疾病,信息滞后两周是致命的。而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。此外,我联想到原淘宝董事长马云通过大量数据分析得出2008年经济疲弱,为其商家提前做好迎接经济危机提供了时间缓冲。(补充并清晰描述详细)关于大数据在商业领域的应用, Farecast公司是一个成功的典型范例。该公司由奥伦·埃齐奥尼创办,利用机票的销售数据来预测未来的机票价格,旨在帮助用户在购买机票方面做出预测,并对机票价格走势预测的可信度标示出来供消费者查考。Farecast系统利用近十万亿条价格记录预测的准确度达75%,使得使用Farecast票价预测工具购买机票的旅客,平均每张机票节约50美元。而处理如此多的数据离开了大数据技术将无法进行。

也正是由于我们进入了一个前所未有的信息化时代,人们拥有了如此多的数据,才提供给我们利用大数据的分析处理手段,创造新的价值。也许有人以为我们大数据时代的还未来临。其实大数据技术早已渗透到我们中间,它被应用在垃圾邮件的过滤,新浪微博技术平台,谷歌翻译以及输入文字的自动纠错等。

文中提出的一个观点是,预测是大数据的核心。其实从过去的时代人们就利用掌握的数据进行各种分析,从而对经济等各方面进行预测、矫正。只是进入了大数据时代人们掌握的数据爆炸性的速度在增长,从而数据的存储和分析数据分方法成了释放大数据能量的关键。

关于不是随机样本而是整体数据中,作者指出了随机取样是小数据时代用最少的数据获取最大价值的做法。作者用大数据与乔布斯的癌症治疗例子说明了使用全部数据而非样本的意义。乔布斯成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。乔布斯曾开玩笑说“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人”。虽然最后难免死于癌症但这种获得所有数据而不是仅样本的方法将他的生命延长了几年。同样,从事跨境汇款业务的Xoom公司侦破一起犯罪集团的诈骗也是由于使用了整体数据。初此之外,他还列举了日本“相扑”等来证明使用全体数据的重要性。

作者同时也指出随着数据使用的越来越多,其得出的结果并一定能越来越精确,毕竟数据不能保证百分之百的正确,特别是大数据时代各种结构化与非结构化类型的数据聚集在一起难免导致结果的不太精确。大数据时代要求我们重新审视精确性的优劣。作者特别举了谷歌翻译成功的例子。谷歌翻译之所以优于IBM的Candide系统并不是因为它拥有更好的算法机制。和微软的班科和布里尔一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。(其语库来自于未经过滤的网页内容,会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误)

在不是因果关系,而是相关关系的篇章中,作者指出在大数据时代往往知道是什么要比知道为什么来的更实在。作者列举了林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分利用并挖掘各类数据信息的先锋和代表,从以前广为人事的啤酒和尿布的案例,以及作者举的有关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于其策略的帮助。建立在相关关系分析法基础上的预测是大数据的核心。Aviva保险公司利用几百种生活方式的数据,如爱好、长浏览网页等间接的预测出哪些人更可能患高血压、糖尿病和抑郁症。UPS国家快递公司通过使用预测性分析检测其全美6万辆车队。进行防御性的修理,节约巨大得的成本。这些都充分显示了大数据在预测方面的优势。

本书第二部分讲的是大数据时代的商业变革。

作者用莫里绘制导航图的例子告诉我们,远在信息数字化之前,对数据的运用就已经开始了。莫里利用大量的人力去分析多年保存的航海记录,他从这些大量的数据中获取到新的利用价值。绘制的图表帮助商人节约一大笔钱,使年轻的海员们间接获取了成千上万名经验丰富的航海家的指导。日本先进工业技术研究所越水重臣教授通过安装压力传感器将人屁股特征数据化,进而形成对乘客身份的特征识别。这项技术为汽车防盗系统提供了方案。Decide.com公司,致力于为顾客预测商品的价格,通过收集处理海量的价格信息,预测准确率高达77%,帮助顾客在购买一个产品时节约了大约100美元。MasterCardd.Advisor部门通过分析来自210个国家的15亿信用卡用户的650亿条交易记录,分析得出商业发展和客户消费趋势,如通过分析发现如果一个人下午四点左右给汽车加油的话,他很可能在接下来的一个小时内去购物或者去餐馆吃饭 ,且在这一小时里大约花费35到40美元。商家正可以利用这个分析结果,在加油的小票背面附加上附近商店的优惠券。

这些例子都证明了大数据蕴藏着巨大的商业价值。根据提供价值的不同来源,大数据价值链包括三大构成部分。包括第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或者提出数据创性用途的才能。比如说,沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司的分析来获得营销点子,天睿就是一家大数据分析公司。第三种是基于思维的公司。皮特.华登,Jetpac的联合创始人,就是通过想法获得价值的一个例子,他通过用户分享到网上的旅行照片来为人们推荐下一次旅行目的地。对于某些公司来说,数据和技能并不是成功的关键。挖掘数据的新价值的创新思维才是这些公司脱颖而出的优势所在。

大数据成为许多公司竞争力的来源,未来可能整个行业的结构会发生改变,大公司和小公司最有可能成为赢家。如今的核心竞争力在于快速而廉价地进行大量的数据存储和处理。当然公司要根据自己的情况进行调整。大数据向小数据时代的赢家以及那些线下大公司(如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司)提出了挑战。同时,大数据也为小公司带来了机遇。大数据也将会影响国家竞争力。当制造业已经大幅转向发展中国家,而大家都争相发展创新行业的时候,工业化国家因为掌握了数据以及大数据技术,所以仍然在全球竞争中占据优势,但这个优势很难持续。随着技术的发展,西方世界在大数据技术的优势将会慢慢消失。对于大公司而言,好消息是大数据技术可以加剧优胜劣汰。一旦公司掌握了大数据,它不但可能超过对手还可能遥遥领先。

文章第三部分讲了大数据带来无数好处的同时带来的不良影响以及如何面对这些影响。包括如数据的收益的处理问题以及数据中用户资料的隐私和决策过程带来的影响。作者在保护个人隐私方面提出了几种想法。一种是使用数据时征询数据所有个人的知晓和授权。第二个技术途径就是匿名化。作者同时也指出了这两种方式的难度。一方面收集到的数据可能会被后续的多次利用。另一方面,匿名化会在数据收集越来越多和数据的相互结合关联使用时变得无效。作者列列举电影《少数派报告》的情节说明越来越依赖数据时,大数据可能将我们禁锢在可能性之中。当然通过分析犯罪的常发地与常发时间,合理安排警力会对治安防范提供不小的帮助。作者还指出不能尽信数据的分析结果,因为不能保证获取分析结果来源的数据准确性。大数据在给我们生活提供便利的同时,也让隐私保护的法律手段失去了作用。我们必须杜绝对数据的过分依赖。

在高速迈进大数据时代的同时,人类信息管理准则需要重新定位,这将带动社会核心价值观的转变。大数据时代,对原有规范的修修补补已经不足以抑制大数据带来的风险。保护个人隐私就需要对个人数据处理器对其政策和行为承担更多责任。同时必须重新定义公正的概念,以确保人类行为的自由。作者提出了解决这些问题的方向。如个人隐私保护方面,可以让使用者承担更多的社会责任。将责任从民众转移到数据使用者有很多意义,也有充分的理由。因为他们更清楚将如何使用数据且是数据应用最大的受益者。关于公正方面简单的讲就是个人可以并应为他们的行为而非倾向负责。就像公司有内部会计和外部审计人员一样,大数据时代,公司将设置专门的人员–内部和外部算法师对大数据活动进行监督。还有可能出现第三方的机构对大数据行为进行监督和衡量。作者甚至考虑到对大数据存在的垄断情况进行分析并在反垄断反面给了建议。最后结语中作者提出大数据提供给人们的只是参考答案,提醒我们在利用这个工具时要铭记人类的作用是无法完全替代的。

大数据时代是信息化社会发展必然趋势,我们只有紧紧跟随时代发展的潮流,在技术上、制度上、价值观念上做出迅速调整并牢牢跟进,才能在接下来新一轮的国际竞争中摆脱受制于人的弱势境地,才能把握发展的方向,冲破与西方国家的差距。对于一个国家如此,对于一个企业亦是如此。在如此快速的到来的大数据时代,我们还有很多知识需要学习,许多思维需要转变,许多技术需要研究。公司的规划中,也需充分考虑到大数据对于公司的未来发展所带来的机遇和挑战。对于掌握大量数据的公司,需要考虑有多少数字化的数据,又有哪些可以通过大数据的分析处理而带来有价值的用途?比如国内目前的社交网站,购物网站等都掌握了用户的大量的数据信息。在大数据时代制胜的良药也许是创新的点子,也许可以利用外部的数据,通过多维化、多层面的分析给其他企业或个人带来价值。

巩英杰

  1. 《数据挖掘与机器学习:PMML建模》,张浩泉、周志勇等合著 ,评分4.7分

本书的重点在于介绍和讲解PMML(Predictive Model Markup Language)建模的基本概念、技术和应用。

首先,本书详细介绍了PMML的概念和基本原理。PMML是一种用于描述和传输预测模型的XML标准,它可以将机器学习模型转化为供其他系统使用的可移植格式。读者可以通过本书了解PMML的结构、语法和特点,掌握使用PMML进行模型的导出和导入的方法。

接着,本书讨论了数据挖掘和机器学习的基本概念和方法。读者可以学习到常用的数据预处理技术、特征选择和变换方法、模型选择和评估等内容。本书还介绍了常见的机器学习算法,包括线性回归、决策树、支持向量机、神经网络等,读者可以了解它们的原理、应用场景和使用方法。

在介绍完基本概念和方法之后,本书重点讲解了如何使用PMML进行建模和部署。读者可以学习到将机器学习模型导出为PMML格式,并使用PMML进行模型的传输与部署。本书还介绍了PMML在实际应用中的一些案例和应用场景,如金融风险评估、电子商务推荐系统等。

总的来说,该书系统而全面地介绍了数据挖掘与机器学习的基本概念和方法,并深入讲解了使用PMML进行建模与部署的技术。对于对数据挖掘和机器学习感兴趣的读者,本书是一本很好的参考书籍。

我的收获:

读了这本书之后,我了解到了PMML的概念、结构和语法规则、PMML标准化建模的原理和流程。知道了PMML在不同数据挖掘和机器学习工具中的应用,例如R、Python、Weka等,如何将PMML与自己常用的工具进行无缝集成,提高建模效率和灵活性。这本书通过通俗易懂的语言和详细的解释,所以我这种新手能够轻松理解和上手使用PMML进行建模。

该书的可读之处:

  1. 详细介绍了PMML的概念和原理:书中深入介绍了PMML的基本结构、语法规则以及常用的元素和属性。这些内容帮助读者全面了解PMML的工作原理和设计思想。

  2. 实用案例和示例代码:书中提供了大量实际应用案例和示例代码,涵盖了常见的数据挖掘和机器学习任务,如分类、回归、聚类等。这些案例和代码帮助读者理解如何使用PMML进行建模,并且可以作为参考和模板用于实际项目开发。

  3. 深入讲解了PMML与其他数据挖掘工具的集成:书中介绍了PMML在不同数据挖掘和机器学习工具中的应用,例如R、Python、Weka等。读者可以了解如何将PMML与自己常用的工具进行无缝集成,提高建模效率和灵活性。

  4. 面向初学者友好:尽管PMML作为一个标准化的建模语言,对于初学者可能有一定的难度,但是《数据挖掘与机器学习:PMML建模》通过通俗易懂的语言和详细的解释,使得初学者也能够轻松理解和上手使用PMML进行建模。

  5. 概念和实践相结合:书籍不仅介绍了PMML的概念和原理,还结合了实际的案例和代码,帮助读者将理论知识应用到实际项目中。这种概念和实践相结合的方式有助于读者深入理解PMML的应用场景和建模过程。

该书的缺失之处:

  1. PMML的局限性未被详细讨论:虽然在书中有介绍PMML的优点,但是并没有深入讨论PMML所面临的局限性和适用场景。PMML并不适合所有数据挖掘和机器学习场景,例如大规模数据处理、实时数据处理等,这些限制可能会对读者的建模选择造成一定的影响。

  2. 对PMML标准化进展的更新不及时:随着数据科学技术的不断发展,PMML作为标准化的建模语言也在不断更新和完善。然而,由于书籍出版需要一定的时间,导致书中介绍的PMML版本相对较旧。因此,读者需要了解当前PMML标准化的最新动态。

  3. 算法介绍不够详细:尽管该书提供了大量的例子和代码,但是对于某些算法和方法的介绍可能不够详细,这可能会对初学者理解建模流程和算法原理造成困难。

  4. 缺乏深入的实践案例讲解:在书中提供的实践案例较为简单,没有涉及到一些复杂的数据挖掘和机器学习场景,例如自然语言处理、图像识别等。这可能会导致读者难以将PMML应用到更加复杂的实际问题中。

如何改进:

  1. 将PMML的局限性进行详细的讲解,将PMML不适合的场景罗列出来,避免读者阅读时候对PMML的一些误解。

  2. 及时更新PMML的标准化进展。避免因为PMML更新不及时而导致的一些读者阅读的障碍。

  3. 详细介绍算法。帮助初学者理解书中的算法。

  4. 利用更多形象具体的实例来配合理论讲解,使读者更深刻的理解建模和算法流程,更好地将PMML应用到实际场景中。

总之,《数据挖掘与机器学习:PMML建模》通过清晰的讲解、实用的案例和示例代码,使得读者能够轻松理解并应用PMML进行数据挖掘和机器学习建模。无论是初学者还是有一定经验的数据科学家,都能够从中受益。

2.《活用大数据》,何志平、邓晖著,评分4.3分

《活用大数据》是一本关于大数据应用的实用指南,旨在帮助读者理解大数据的概念、价值和应用,并提供相关工具和方法来进行大数据分析和决策。

该书的内容包括大数据基础知识,如数据存储与处理、数据采集与清洗等。它还介绍了大数据分析的基本方法,包括统计分析、机器学习和数据挖掘等技术。此外,书中还涵盖了大数据在不同领域的应用案例,如市场营销、金融风险管理、医疗健康等,并提供了实际的实施步骤和注意事项。

《活用大数据》还强调了数据驱动决策的重要性,并介绍了如何构建有效的数据分析团队和数据驱动的组织文化。此外,书中还讨论了大数据伦理、隐私保护和数据安全等问题,以及大数据发展趋势和展望。

这本书适合对大数据应用和分析感兴趣的读者,无论是初学者还是有一定经验的从业人员。它以简明易懂的方式解释了复杂的概念和技术,并提供了实际案例和指导,帮助读者更好地理解和应用大数据。无论是企业决策者、数据科学家、市场营销人员还是其他领域的专业人士,都可以从这本书中获得有关大数据应用的实用知识和方法。

3.《spark实战》,李建峰、杨传辉著,评分4.5分

《Spark实战》是一本关于Spark分布式计算框架的应用指南。每章分别介绍了Spark不同方面的应用场景和开发方法。其中包括Spark环境搭建、RDD和DataFrame等核心概念及其使用、Spark SQL、Spark Streaming、MLlib等相关技术的使用,以及Spark在Hadoop生态系统中的应用等。此外,书中还介绍了如何使用PySpark、SparkR、Spark on Mesos和Spark on YARN等对Spark进行扩展和增强。

该书深入浅出地讲解了Spark的原理和机制,既适合初学者,也适合有一定经验的工程师和开发者。通过实践操作,读者能够更好地掌握Spark的优势和应用方式,提升大数据处理能力。因此,如果你想学习Spark的应用和开发,这本书是一个不错的选择。

4.《大数据分析与挖掘》,李兴民、杨春燕著,评分5分

《大数据分析与挖掘》是一本综合性的大数据分析和挖掘方面的技术书籍,是一本面向实践、注重方法与案例分析的大数据分析入门教材。

该书主要内容包括大数据相关的基础知识,如Hadoop、MapReduce、NoSQL等技术,以及数据科学中的统计学、机器学习、数据挖掘等基础理论。其次,该书详细介绍了大数据处理和分析中常用的技术方法,如数据预处理、文本挖掘、推荐系统、社交网络分析等。此外,该书还深入讲解了大数据分析在商业领域和政策制定等方面的应用案例,以及如何构建大数据分析和挖掘平台进行实际应用。

《大数据分析与挖掘》适合对大数据技术和数据分析感兴趣的初学者和从业人员阅读。书中所涉及的理论和方法都有配套的代码和实现步骤,可以帮助读者更好地理解大数据处理和分析的流程和方法。同时,书中还提供了大量的应用案例,可以帮助读者更好地了解大数据分析的实际应用场景和价值。

5.《基于云计算的数据科学》,张洋、王丽娜、刘淼等著名专家合著,评分4.5分

《基于云计算的数据科学》是一本专注于云计算在数据科学领域应用的书籍,旨在帮助读者了解如何利用云计算技术来进行数据科学研究和实践。

该书首先介绍了云计算和数据科学的基本概念及其在当今社会中的重要性。然后,它系统地阐述了云计算平台的架构和基本原理,并介绍了云端存储、云计算资源调度和虚拟化等关键技术。接着,书中详细探讨了云计算环境下的数据获取、数据存储、数据预处理和特征选择等数据科学的关键步骤和方法。

《基于云计算的数据科学》还涵盖了云计算平台上的数据分析、机器学习和深度学习等方面的内容。它介绍了云端数据处理工具和平台,如Spark、Hadoop、TensorFlow等,并介绍了如何使用这些工具进行大规模数据处理和建模。此外,书中还涉及了云计算安全与隐私保护、模型部署与服务化等实际应用和挑战。

总之,这本书适合对云计算和数据科学领域感兴趣的读者,特别是那些希望了解如何将云计算技术应用于数据科学研究和实践的人员。通过系统的理论讲解和实际案例分析,读者可以了解云计算在数据科学中的作用和应用方法,从而更好地掌握大规模数据处理和分析的技能。

董晨宇

选书:

《深入浅出数据分析》,(美)Michael Milton著,评分4.8分

《深入浅出数据分析》采用了一种生动的“章回小说”的形式,生动地向读者展示了杰出的数据分析从业者需要了解和掌握的各种技术。这包括数据分析的基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库,以及数据整理技巧。在正文之后,还附有三篇附录,分别深入介绍了数据分析的十大要务、R工具和ToolPak工具,为读者提供了踏上深入研究数据分析领域之路的坚实基础。

2.《大数据时代》(英)维克托•迈尔•舍恩伯格著,评分4.9分

《大数据时代》标志着国外大数据研究的开创性巨著,其作者维克托•迈尔•舍恩伯格享有“大数据商业应用第一人”的盛誉。他曾执教于哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个国际互联网研究的重要学府,早在2010年,他在《经济学人》杂志上发表了长达14页的前瞻性研究,探讨了大数据应用的潜力。在这部巨著中,作者有远见地指出,大数据带来的信息浪潮正在深刻改变着我们的生活、职业和思维方式。大数据开启了一场深刻的时代变革,书中分为三个主要部分,详细阐述了大数据时代对思维方式、商业模式以及管理方式的深刻变革。

3.《算力时代》王晓云、段晓东、张昊等著,评分4.6分

书中讲述了瓦特的改进革命性地升级了蒸汽机,引领了第二次工业革命。这一时期标志着人类社会的从农耕文明向工业文明的飞跃。接下来,电磁感应原理的发现激发了第三次工业革命,为电气时代的到来铺平了道路。而第三次工业革命以信息技术为特征,第四次工业革命以人工智能为亮点,这两次革命释放出强大的力量,深刻地塑造着我们的经济和社会。在数字化时代,数据已经成为新的生产要素,而计算能力则成为新的生产力。全新的产业革命正在席卷而来,网络覆盖无所不及,计算能力无所不在,智能无所不能。谁能够拥有强大的计算能力,谁就将握住未来的制胜利器。站在计算能力时代的新起点,中国正在加速推进数字经济的新征程,人类已经迈入了智能时代的新里程碑。

4.《Hive性能调优实战》林志煌著,评分4.5分

《Hive性能调优实战》旨在向读者介绍如何有效地进行Hive性能调优,同时详细介绍了所需的工具和技术。本书重点关注Hive性能调优所需要的Hadoop组件和Hive工具。鉴于许多性能调优方法在不同Hive版本中具有相似性,这些方法适用于广泛的Hive应用场景。本书的目标是帮助读者掌握Hive性能调优的核心原则和技巧,以提高大数据处理的效率。书中将深入探讨Hive性能调优的实际应用,包括查询优化、数据压缩、分区策略、索引优化等多个方面。此外,还将介绍监控工具、性能分析方法和故障排除技巧,以确保Hive集群的顺畅运行。

5.《金融机器学习》Marcos Lopez de Prado著,评分4.9分

机器学习(ML)正在彻底改变我们生活的方方面面。如今,ML算法可以完成以前只有专业人士才能做到的任务。就金融而言,现在是采用一项颠覆性技术的最令人兴奋的时刻,这将彻底改变每个人投资的方式,影响几代人。随着技术的进步,机器学习在金融领域已经展示出巨大的潜力。通过使用大数据和先进的算法,机器学习可以分析市场趋势、量化风险、预测股票价格等,为投资者提供更准确和智能的决策支持。由于机器学习的高效和准确性,投资者可以更好地管理风险、获取更高的回报,从而改善他们的投资表现。

精读:

《深入浅出数据分析》,(美)Michael Milton著

《深入浅出数据分析》是一本充满生动趣味的书籍,以“章回小说”的形式,生动地向读者展示了优秀的数据分析人员所需了解和掌握的各种技术和方法。通过精读这本书,你将获得以下更丰富的收获和价值:

首先,本书详细介绍了数据分析的核心技术。它深入剖析了数据分析的基本步骤,包括数据收集、数据清洗、数据探索等,帮助你全面了解数据分析的实践过程。此外,它还介绍了实验方法、最优化方法、假设检验方法、贝叶斯统计方法等,为读者向高级数据分析领域迈进提供了扎实的基础。

其次,本书着眼于数据整理技巧的讲解。数据整理在数据分析中至关重要,对于数据的质量和准确性起到了决定性的影响。通过本书,可以学会如何有效地整理和清洗数据,提高数据的可靠性并准备好进行进一步的分析。

此外,附录部分是本书的又一亮点。它包含了关于数据分析的十大要务、R工具和ToolPak工具的详细介绍,为你提供了进一步深入研究数据分析领域的机会。这些附录内容不仅能够使读者拓宽数据分析的视野,还能提供了实际应用所需的强大工具支持。

除了通俗易懂的叙述方式之外,本书还具有广泛的适用性。无论是职场老手还是新人,无论对数据分析有着深入了解还是刚入门,都能从中获益。它将带来数据分析领域的乐趣和挑战,帮助我在职场中不断成长和进步。

总之,《深入浅出数据分析》的精读将帮助我建立坚实的数据分析基础,提升你的数据分析能力,为你在职场中面对的数据挑战提供解决方案。这本书是一部不可多得的宝贵资源,它将激发我对数据分析领域的热情,并为我的学习和职业发展增添动力。

缺点:管《深入浅数据分析》是一本优秀的书籍,但它可能在以下方面存在一些缺点。首先,虽然以”章回小说”的形式写作使得内容更加生动有趣,但这种叙事结构可能导致一些重要的概念未能得到充分的深入解释。其次,书中的附录部分对于一些读者来说可能过于详细,迷失于技术细节之中而失去整体思考的机会。最后,由于数据分析领域的不断发展,书中可能需要进行定期更新以保持内容的时效性。

改进:为了改进《深入浅出数据分析》,可以考虑以下措施。首先,针对章节中的重要概念,可以增加更多的示例和案例来加深读者对其理解。其次,对附录的内容可以进行梳理和简化,使其更加易于理解和实践。最后,作者可以定期更新书籍,以反映数据分析领域的新进展和技术趋势。

2.《金融机器学习》Marcos Lopez de Prado著

《金融机器学习》这本由Marcos Lopez de Prado所著的书籍,给予了我非常宝贵的知识和启发。在精读过程中,我深刻地理解到机器学习正在彻底改变金融领域,为投资决策带来了前所未有的革新。

首先,这本书通过深入的探讨,展示了机器学习在金融领域的巨大潜力。作者阐述了机器学习算法如何应用于金融市场的分析和预测。学习了机器学习在分析市场趋势、量化风险、预测股票价格等方面的应用,我认识到机器学习可以为投资者提供更准确和智能的决策支持,提高他们的投资收益。

其次,书中详细介绍了在金融机器学习中使用的各种算法和技术。我深入了解了监督学习、无监督学习和深度学习等不同的机器学习方法,以及它们在金融领域的具体应用。这为我提供了宝贵的实践经验和方法,使我能够更好地理解和应用机器学习算法来解决金融问题。

此外,这本书强调了机器学习在金融领域的风险管理和组合优化等方面的重要性。我深刻认识到机器学习可以帮助投资者更好地管理风险,并优化投资组合以达到更好的回报。这对于我在金融领域的职业发展非常有价值,帮助我更好地理解和应用机器学习在投资管理中的潜力。

最重要的是,这本书唤起了我对金融机器学习的强烈兴趣。它展示了机器学习在金融领域的广泛应用和未来的发展方向。通过精读这本书,我掌握了金融机器学习技术的关键概念和方法,这对于我在金融领域的职业发展提供了重要的基础。

总而言之,《金融机器学习》这本书给予了我重要的知识和洞见。通过深入研读,我对机器学习在金融领域的应用有了更深刻的理解,并掌握了实践中所需的关键技术。这本书值得一读,不仅对金融从业者,也对对机器学习感兴趣的人具有很大的价值。

缺点:虽然《金融机器学习》是一本有价值的书籍,但也存在一些潜在的缺点。首先,书中可能过于侧重于技术细节,对于非专业读者来说可能会显得过于复杂和晦涩。其次,对于一些商业化的机器学习方法,书中可能没有提供足够的批判性分析和应用实践。最后,由于金融领域的动态性和复杂性,书中的某些案例可能已经过时或无法适应当前的金融市场环境。

改进:为了改善《金融机器学习》,可以考虑以下改进措施。首先,对于技术细节,可以适当地进行解释和概括,以更好地满足广大读者的需求。其次,在书中引入更多实际的应用案例,为读者提供更深入的理解和实践指导。最后,作者可以提供定期的更新和补充,以跟踪金融领域的最新发展和应用前沿。

李佳贞

  1. 《人人都会数据分析——从生活实例学统计》评分:4.5

该书大多数知识点都列举了生活中的实用案例,增加了趣味性和可读性,是很好的科普书,对原理和案例的解释都足够深,但又不至于太深。略读之后的感受是书里的统计学分析给出的意见没有决定性的效果,最多只是给已经打算要做的决策加强信心或者提供更多佐证。

  1. 《大数据时代下半场》4.4

大数据时代上半场主要是收集数据,下半场则转向数据治理、驱动与变现。该书是一本能够帮助普通人理解大数据技术、治理、驱动与变现的一本好教材。对于大数据的未来,作者对大数据时代的诸多变化进行梳理,给出了自己的认知,在前几年来看,是非常具有前瞻性的。

  1. 《大数据主义》4.3

是一本适合大众阅读的通俗财经读物。封面和标题高冷,内容还是蛮亲和的,主要围绕一个人(哈梅巴赫)、几个公司(脸谱网、IBM、谷歌)在大数据领域的成就,进而谈论大数据的意义,该书的观点对于现在来说算不上新颖,深度也有限,不过它结合企业发展来讲平易好读,有一定意义。

  1. 《可视化沟通:用信息图表设计让数据说话》4.5

该书对为什么信息图表和数据可视化能够奏效进行解释与阐述;分享了一些创作信息图表所需要的工具和技术以及面向客户的产品和服务的可视化解释。书中有一些图表设计原则很不错,书中给出了丰富的资源,包括用于营销的在线信息图表、许多企业内部使用的信息图表以及如何利用可视化的信息图表推销你的技能等,有一定的利用价值。但该书偏重普及及设计思想的讲解,内容较浅。

5.《重估:人工智能与人的生存》4.6

该书从人工智能与人的生存这个大的命题出发,围绕人工智能与人的生存、生活及发展这三个维度进行了较为全面的论述,对人们日常生活中的人工智能运用的一些困境和出路行了分析,带有一定的人工智能知识的科普目的,该书与人工智能的专业技术、理论类书籍不同,它并没有将写作的重点放在对人工智能技术的探讨上,可以使非专业人士通过此书对人工智能领域有更多的了解与启迪。

精读:《重估:人工智能与人的生存》

该书对人工智能时代人的生存和发展所涉及的重要方面,如出行、医疗、购物、情感、社交、隐私、教育、就业、人机生态等进行了初步研究和价值探索,对人们各个不同的生存领域所涉及的典型案例、伦理论争、人机关系、人的价值与尊严等进行了审思,并围绕特定的生存困境进行了大量的“理性思考”,为人们提供一种拥抱智能化生存的思路和方法,进而促进智能时代的人们能以更加积极的心态、更充分地迎接人工智能时代的到来。

作者在人工智能对社交的变革方面的观点对我有一定的启发。人工智能技术的发展使得社交媒体平台能够更好地分析用户的兴趣、偏好和行为模式,为我们提供个性化的内容推荐和社交建议。这使人们能够更容易地连接和互动,并在虚拟空间中建立起各种社交关系。在商贸方面,人工智能的社交环境,加上交通运输业的快速发展使得不同地域之间建立了友好的商贸往来关系,弥补了各自某方面的物资匮乏的缺陷。这种基于人工智能的社交打开的新世界的大门,大大提升人与人之间的沟通联系与商贸往来的效率和质量。作者在书中说我们生活在一个社交最好的时代,因为人工智能社交为我们带来的便利是前所未有的,但也不得不说我们生活在一个社交最坏的时代。人工智能社交的确给我们的生活带来了一些挑战和问题,例如个人隐私泄露、社交焦虑的增加、信息过滤和虚假信息的传播等,我们在享受人工智能带来福利的同时还需要采取措施应对这些问题,比如可以加强法律和监管机制、提供更加安全的数据保护措施、建立健康的社交网络生态、加强信息验证机制等等。

数据虚拟化:商务智能系统的数据架构与管理 4.3分

数据虚拟化是一种转化异构数据库集合和文件的技术,这种技术使得这些数据看起来像一种集成数据。该书详细描述了数据虚拟化产品的工作原理、应用技术、应该做什么和不做什么,以及在商务智能系统中应用它的好处。数据虚拟化可以部署在需要检索和操作数据的所有类型的信息系统中,例如经典数据输入系统、基于因特网的系统、面向服务的系统、主数据管理系统和商务智能系统。该书的重点是商务智能系统。数据虚拟化可用于整合来自各种数据源的数据,包括数据仓库、数据集市和生产型数据库。它有潜力改变我们开发商务智能系统的方式。数据虚拟化将成为大多数这类系统的心脏。数据虚拟化允许我们使用更简单和更灵活的架构构建商务智能系统。

张思仪

套路!机器学习 4.5分

该书是一本关于数据的科学与艺术的书,通过大大小小的分析项目,对最常用最有效的模型进行了展开。本质是通过分析数据解决实际问题,通过作者的实践经验,更能给我们和一些刚踏入数据分析领域的新手们以帮助,快速的上手并且能有有效的数据支撑,帮助我们进行实际操作,更好的感受模型的魅力,更快的理解编程的含义。我觉得空有理论的学习,没有实际的操作,知识无法真正的进入我们的大脑,为我们所用,而通过了实操更能发现可能存在的问题,投入思考,理解代码后的内核,之后才能更好的驾驭数据分析软件。

实体识别技术 4.1分

该书核心介绍实体识别技术,拟结合作者这几年的研究工作,从多角度阐述实体识别技术,主要包括基于关系的实体记录识别技术、分布的实体识别技术、基于时间的实体识别技术、隐私保护下的实体识别技术和研究展望。该书适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。通读下来,该书需要一定的实体识别技术基础,更适合在这方面有过一定学习,或者想要进一步深入学习的人阅读。选择这本书是被实体识别技术所吸引,作为在这方面了解甚少的我们,翻阅此书能感受到实体识别技术的多样化和高深,他面向了技术热点,弥补了现有体系的漏洞和不足,内容涵盖范围广。

非结构化数据处理技术及应用 4.1分

在大数据时代,互联网充斥着大量以文本,图形,图像,视频,声音等形式存在的非结构化数据,这些数据与传统结构化数据相比较具有鲜明的特征,因此传统数据挖掘方法难以对非结构化数据进行有效处理,而需要在对其进行加工的基础上,才能完成相关分析与挖掘方法的研究。该书通过各项科研项目的积累,对非结构化数据处理方法进行了梳理,并加以实验佐证,使读者能够对非结构化处理方法有一定的认识,通过实验作证加深了印象。

数据质量导论 4.4分

该书是作者在数据质量研究领域的研究成果的梳理小结,它广泛参考了国内外相关研究成果,帮助我们了解数据质量方面的问题,基本概念、框架,所用模型和算法,主要针对数据资源管理与建设、信息技术等领域的科研和工程技术人员进行数据质量研究与实践的入门指导。选择该书是因为大数据的盛行,我们关心如何利用和处理数据,学习了很多方法,但这些方法所做出的结果质量如何我们无法保证,我们也学习了相关数据筛选和清理方法,但对于数据质量问题学习较少,了解数据质量处理问题,能更好的保证我们分析的结果也是十分重要的。

精读:套路!机器学习

精读该书原因是我们现在主要学习的就是有关r语言方面的编程,且书里有很多数据模型方便我们操作。我可以控制数据生成的过程,免去了传输下载数据的麻烦,可以根据需要改变代码,得到新的数据观察数据变化对模型结果的影响。相当与拥有了许多个数据模型,分别观察不同情况下的结果,更好的帮助我应对不同的要求。对于可以自己创建的,我们知道数据要表达的真实信息,那么就可以自己评估分析使用模型的准确性,然后在用于真实数据。在进行调整之后,我可以直接用修改好的代码模板,去套用到我需要分析的情况下,可以多次更改使用。最后我可以重复数据模拟的过程,以达到加深对模型理解的效果,理解了模型和假设的内涵才是真正的掌握的该知识点,之后也能更好的运用到不同的情况下,对于出现的差别和问题也能从容地应对。

汤雪强

选书

(1)《R数据分析方法与案例详解》 评分4.7

该书主要讲解的是R语言的基本算法与语法,包括R的安装,数据结构,函数等。在此基础上深入讲解如何进行数据分析,例如参数假设检验,线性回归模型,多元选择模型等。其中穿插着许多的案例,学用结合,上手较为轻松。该书是R语言学习与数据分析的入门教材,基本是手把手教学,确保读者能够理解R的基本使用方法与技巧。

(2)《R语言大数据分析与挖掘》评分4.3

该书是上一本书的进阶版,同样是基于R语言,不过讲解的是更深层次的统计方法,例如聚类分析、分类分析、关联分析、时间序列等。从原理到如何用R进行实现都进行了详细的介绍,并通过几个实例帮助读者融合整个知识体系。在掌握了R的基本应用后,如果有需求可以进一步学习本书。

(3)《现代数据库管理》评分4.9

该书是美国的一本经典数据库教材,包含了数据库的原理,数据库的应用技术,企业数据的有效管理等。从背景到分析再到设计和实现,逐层递进,帮助读者学会如何设计数据库,如何使用数据库以及如何管理数据库。如果未来从事数据分析等工作,了解数据库的设计是有必要的,掌握数据库的查询使用也是必须的。

(4)《数据挖掘与R语言》评分4.5

该书主要介绍数据挖掘的基本技术和相关算法,同样是利用R进行实现,指导读者如何从大量数据中挖掘有用信息。具体包括了R的基础知识、关联规则、贝叶斯算法、决策树等。该书各章自成体系,因此自学过程中可以挑选有需要的内容进行学习。

(5)《大数据:Python爬虫、数据清洗和数据可视化》评分4.5

本书介绍了大数据、爬虫等基本知识,详细讲解了爬虫与大数据相关技术、数据库连接与查询、数据可视化、数据存储与清洗、数据格式与编码技术、数据抽取和采集、pandas数据清洗等内容。并内设大量案例结合知识点进行讲解,有助于读者边学边上手。

读书

《现代数据库管理》

学习报告:该书内容较多,难度适中,需要学练结合,因此仍在学习的过程中。目前看来,我从该书中了解到了数据库的基本框架,以及历史演变过程。并学习了其中的E-R模型。该书在指导我独立的完成数据库的设计,并讲解了SQL的基本语法及高级应用。该书所讲解的数据库设计及SQL操作是值得详细阅读的。目前感觉存在缺失之处在于文字内容过多,每一章中的小节划分不明确,学习起来耗费时间较长。前几章着重数据库的一些概念,很容易劝退部分读者。该书强在将数据库大部分内容都展现给了读者。读者通过这一本书便能入门数据库管理。但由于该书是由美国教材翻译而来,其中很多习惯与中国读者习惯不同,所以可以在内容设置、语言表达上进行改进。(目前学习进度较慢,所以收获还是比较少的。)

《R数据挖掘方法与案例详解》

学习报告:该书内容还是比较全面的,由于许多课程需求,所以选择了该书进行精读。该书在开篇讲解了R语言的基本知识与命令。相较其他语言,R语言的难度更低,更容易上手,如果有其他语言的基础,掌握R语言将会更快。在讲完R语言基础后,该书开始讲解数据分析部分。首先介绍各种数据分析方法,例如参数假设检验和非参数假设检验,如何进行方差分析,如果构建模型等。由浅入深,层层递进。讲解数据分析的过程中,注重的是R语言的代码编写,对于基础知识是涉及较少,这对于部分读者来说可能是个缺陷,由于这部分内容可能已被遗忘。每章节后设置习题以供练习是我为什么选择这本书的缘由之一,适当的练习对于掌握一门语言是有意义的。可能可以改进的地方同样是练习部分,有习题我觉得应该配套上参考代码,有助于读者进行检验。虽然现在可以通过GPT去获取答案,但如果书上能配套上或许会更好。(同样是目前正在学习的一本书籍,后续或许会有更多的收获。)

乐纹甫

选书:

1、 《舆情计算方法与技术》评分:4.2

社会计算是近十年来快速发展起来的一个新兴研究领域,它一方面依托于近年社交网络技术以及应用的快速发展,使得越来越多的网络用户之间产生自联接、自媒体、自选择的内容传播新方式,并且带来了关于针对文本内容深入挖掘与分析的强大动力基础;另一方面传统社会学对于社会活动领域中的分析方法,特别是基于网络化的社会化分析方法,使得人们发现在庞大的网络数据中,可以充分地利用其中的一些指标与算法进行有效的度量与分析。本书从社会计算和自然语言处理与文本挖掘两个角度出发,针对社会舆情分析过程中存在的核心方法进行了综合介绍。涉及到文本聚类、文本分类、信息抽取、数据可视化等内容。

2、 《数据质量改进实践指南》评分:4.6

该书由美国作家洛申编写,其以“从始至终控制信息生产过程的质量,确保在产生实质影响前尽早识别、排序和修复数据缺陷”的核心理念贯穿始终,指导管理者和实践者以相同的方式交流、获得支持、规划和建立数据质量计划,给业务影响分析、数据质量指标定义、检查和监测、修复以及数据质量工具的使用提供了模板和流程。

3、 《统计分析与数据挖掘技术》评分:4.1

本书讲述的是在大数据时代下的统计学理论以及数据挖掘的基本概念和技术。从传统统计学的角度讲述了数据描述性分析、数据分析理论及方法,详细介绍了多元统计分析的基本统计思想和相关理论,为数据挖掘算法的研究提供了必要的理论支持。此外还考查了数据挖掘的任务、数据流模型与分类及数据流概要描述方法,介绍了数据挖掘的基本理论和常用算法,如分类、聚类及关联规则等数据挖掘算法。

4、 《大数据核心技术与实用算法》评分:4.7

本书全面地介绍了大数据技术,尤其对大数据核心技术作了较深入的全面描述,并列举了大数据技术中经常使用到的几十个实用算法。主要内容包括大数据获取与存储、大数据抽取技术、大数据清洗技术、大数据集成技术、大数据挖掘技术、大数据分析技术、大数据解释技术 、流式计算技术与批量处理技术等,内容丰富,覆盖范围全面,非常适合想要学习大数据技术与算法的人群。

5、 《写给大家看的大数据》评分:4.3

该书简单而系统地介绍了大数据涉及的各方面知识,涵盖大数据的基本概念、大数据的技术基础、大数据管理、大数据分析、大数据在现实工作中如何实现和实施等关键内容。此外还介绍了大数据基础架构和大数据使用的数据库和分布式技术,以帮助读者了解大数据的全貌。

读书:《大数据核心技术与实用算法》——陈明

学习报告:通过仔细阅读这本书,我对当前流行的大数据技术有了较为全面的了解。大数据技术是一个面向实际应用的技术。从大数据中获取有价值信息是大数据技术的精髓。读完本书后,主要收获如下:

1)掌握了大数据的获取与存储相关内容,主要包括数据获取的定义与数据获取领域、NewSQL和NoSQL、分布式文件系统、虚拟存储技术、云存储技术、分布式存储核心算法、数据仓库与数据集市、区块链技术等。

2)了解了大数据清洗技术。主要涵盖了数据质量与数据清洗,涉及到不完整数据、异常数据、重复数据的清洗。

3)知道了大数据集成技术和大数据分析技术。包括数据迁移、数据集成模式、数据集成系统、数据聚类集成、预测分析等。

4)初步了解了大数据流式计算技术和交互式处理技术。主要内容有流式计算模式、流式计算的系统架构、高可用技术、Storm流式处理平台、单词计数topology程序设计、Scala编程语言、交互式大数据处理框架Spark和交互式查询。

该书我认为总体非常好,让我在阅读的过程中较为清楚地掌握了许多大数据核心技术与实用算法。全书在结构上为积木状,覆盖内容全面,阐述较为系统。该书的一个特点就是在介绍了相关内容与

李志伊

一、选书

《大嘴巴漫谈数据挖掘》 评分:4.5分

如果你想知道啤酒和尿布为什么会相遇,如果你想成为“读心”魔法师,Now,跟着大嘴巴,一起玩转数据挖掘!

  1. 《写给大家看的大数据》 评分:4.0分

此书简单而系统地介绍了大数据体系涉及的各方面知识,涵盖大数据的基本概念、大数据的技术基础、大数据管理、大数据分析等关键内容,涉及大数据基础架构、大数据使用的数据库和分布式技术以及企业如何应用大数据转变其商业运作模式等内容,理论结合实例,非常适合对大数据感兴趣的广大读者。

  1. 《舆情计算方法与技术》评分:4.0分

本书从社会计算和自然语言处理与文本挖掘两个角度出发,针对社会舆情分析过程中存在的核心方法进行了综合介绍,适合有一定数据分析基础的读者。

  1. 《大数据时代 小数据分析》 评分:4.5分

此书是一本大数据时代下进行小数据分析的入门级教材,通过数据分析的知识点,将各类分析工具进行串联和对比。它以中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容,适合想进入数据分析行业的同学参考阅读。

  1. 《对“伪大数据”说不》 评分:4.5分

在这个充满数据的世界里,我们不仅要让数据为我们所用,更要擦亮双眼,培养敏锐的“数字直觉”,在别人为大数据大唱赞歌的时候,保持清醒,甄别其中的真伪。

二、读书

精读:《对“伪大数据”说不》

我们生活在一个任何人都无法摆脱数据的大数据时代,因为数据是免费的,又很容易获得,所以必然会产生更多的数据分析。但是由于没有人能够掌握所有的信息,所以对数据的分析总会出错。即使是专家,有时候也会掉进数据陷阱中。大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。明目张胆的欺诈虽然很难被侦测到,不过,它们经常会因为不一致而暴露出来。对于数据的消费者而言,必须处处留神,必须具备能够辨别真伪数据与分析的火眼金睛,即具备一种数字直觉。《对“伪大数据”说不》这本书是通过对社会大数据、营销大数据、经济大数据和体育大数据这四个方面的解读,以讲故事或列举实例的方式,来完成作者大数据分析观的阐述的。

什么是“伪大数据”呢?书中没有给出明确的定义。但通过作者的阐述,我大体可以得出这样的结论。所谓“伪大数据”,包括这么几个方面:一是指数据虚假,比如美国密歇根大学法学院,通过替换足够数量的学生,以改变中位数的方式,达到学院排名上升的目的。二是指分析片面。比如如果单纯看1987年航班晚点率的话,美国西部航空公司仅11%,是最低的,但它却在1991年宣告破产,而阿拉斯加航空公司晚点率虽然达13%,但它在美国西海岸的五个机场的晚点率却都低于美国西部航空公司。三是评价方法的人为操控。没有哪个主观性标准能摆脱被操纵的命运,而大数据的存在恰恰加剧了这种危险。评级公式越复杂,数字被篡改的机会就越多。四是统计模型的瑕疵。统计模型与牛顿的重力模型完全不同。牛顿的重力模型中,方向朝下的力量使得树上的苹果总会掉下来,无论昨天、今天还是明天。但在统计模型中,却远没有这么简单。比如你今天带了一把绿伞,不能肯定明天你买的下一把伞也一定是绿色的。因为二者之间不存在必然的因果关系。换句话说,我们几乎不可能把千变万化的人类行为提炼归纳进一套公式里面,假设并不必然成立。

如何鉴别大数据的真伪、避免让分析变成烟幕弹呢?书中没有集中归纳。从散见于书中的思想火花来看,主要可以注意以下几个方面:一是不从表面上判断已公布的数据;二是知道该问什么问题;三是研究原始数据;四是能敏锐地发现被篡改的数据;五是能够认出哪一部分分析是建立在数据之上的,哪一部分仅仅是一种理论;六是不轻信统计模型。

如何对大数据进行正确的分析与解读呢?书中也没有进行集中归纳。不过从字里行间来分析,作者的方法主要有两个:一是尽可能寻找合适的证据。书中引用了统计学家的经典格言:“找不到证据,并非证据不存在。”二是正确运用假设。大数据的世界需要更多好假设,更少坏假设。

依我看,全书比较精彩的章节是前言和第二部分关于营销大数据的解读。第四部分体育大数据因为讲的是中国人普遍不大熟悉的棒球,所以可读性较差。第三部分经济大数据实际只涉及了失业率和CPI的统计,除了让我们知道美国的常规政府统计也有遭人质疑之处外,也乏善可陈。而第一部分社会大数据,法学院排名的故事还有些可读性,减肥的故事就有些不知所云了。这也是后面可以进行着重改进的地方。

殷燕

大数据是一个非常广泛的领域,涵盖了许多不同的技术和概念。以下是被推荐的一些书籍:

①《Hadoop权威指南》: 这本书详尽地介绍了Hadoop的核心概念和组件,包括MapReduce、HDFS等。它帮助读者理解如何在大数据处理中应用Hadoop,并通过实例教学,使读者能够掌握Hadoop的使用方法。对于想要在大数据领域工作的人来说,这本书是必读的。

②《大数据:原理与最佳实践》: 这本书详细地解释了大数据处理的基本概念和方法,以及一些在实际工作中经常使用的最佳实践。它涵盖了从数据收集到数据分析的全过程,对于初步了解大数据并希望在实践中应用大数据的读者非常有用。

③《Spark快速大数据分析》: 这本书详细解释了Spark的基础知识和使用方法。Spark是一个用于大规模数据处理的开源集群计算系统,这本书通过许多实例教学,使读者能够掌握Spark的使用方法。对于希望利用Spark进行大数据处理的读者来说,这本书具有很高的参考价值。

④《大数据日知录:架构与算法》: 这本书全面探讨了大数据的理论和实践,包括基本概念、架构和算法。它结合了实际案例,使读者能够深入理解大数据的内在机制。对于希望深入研究大数据的读者来说,这本书是非常好的参考资料。

⑤《深入浅出数据分析》: 这本书以通俗易懂的方式介绍了数据分析的基本概念和方法。它涵盖了数据分析的全过程,包括数据收集、数据清洗、数据分析和数据可视化等。对于数据分析的初学者来说,这本书是非常好的入门书籍。

⑥《Python大数据分析》这本书就不用提太多,好多同学都有选这本书,下面简单的介绍一下: 这本书详细介绍了使用Python进行大数据分析的方法,包括数据清洗、处理和可视化等步骤。Python是一种非常强大的数据分析工具,这本书通过许多实例教学,使读者能够掌握Python的使用方法。对于希望使用Python进行数据分析的读者来说,这本书具有很高的参考价值。

《大规模分布式存储系统:原理解析与架构实战》: 这本书深入解析了大规模分布式存储系统的设计原理和实践。它详细介绍了分布式系统的设计原理,包括数据一致性、容错性、扩展性等,并结合了许多实际案例。对于想要深入理解大数据背后的技术架构的读者来说,这本书具有很高的参考价值。

《数据挖掘:概念与技术》: 这本书详细介绍了数据挖掘的基本概念和技术,包括分类、聚类、关联规则等。它涵盖了数据挖掘的全过程,对于希望深入理解数据挖掘概念和技术的读者来说,这本书是非常好的参考资料。

高畅

选书

(1)大数据时代3.5

本书认为大数据的核心是预测,大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。大数据是一种资源,也是一种工具,内行与外行最大的区别在于思维不受限,它让思维方式有更好的延展性、多样性与丰富性。

(2)数据大泄露:隐私保护危机与数据安全机遇4

本书主要介绍了一些面对数据泄露问题的有些防御策略,减少因为数据泄漏而造成的损失,几乎涵盖了美国历史上经典的数据泄露案例处理细节,故事精彩,教训深刻,值得反复阅读。

(3)Python编程从入门到实践4.5

本书适合初学Python的人,几乎覆盖了python的所有基础语法内容,“深入学习Python后再去开发项目时,你将能够更高效地解决更多的问题”。对于想入门python或入门python项目的人来说,这确实是一本绝佳的好书。

(4)被算法操控的生活4

这本书向我们展示了社交媒体、搜索引擎如何收集我们在网上留下的痕迹,并通过算法对其加以利用。作者提出疑问:当我们开发出日渐完美的AI后,是否存在接管被算法操控的生活这个世界并且主宰我们命运的风险?

(5)人人都在说谎4.5

这本书主要讲了个性化的大数据是一把双刃剑,一方面它可以让你获取有价值的数据,另一方面存在个人隐私被公开的问题,大数据为我们个性化的服务创造了条件,提升我们生活的便利度,同时也会存在风险,为了避免大数据分析被不法分子使用,需要对大数据分析的相关应用进行监管。

2.书籍精度,推荐:人人都在说谎

(1)简单介绍与价值

我们可以将大数据库看成一个拥有庞大信息的集合,它的存在就是为了让我们更好的看清这个世界。作者是一位前谷歌数据科学家和专栏作家,他研究发现:世界充满了谎言,人类或出于善意或恶意,无时无刻不在说谎。对于许多问题传统的统计调研方式得出结论很多都是错误的,误导了我们的认知。

人们需要通过数据,了解实际发生了什么事情,而不是说了什么。人的自私性,让人常常都在说谎,说故事,也许这样的故事他自已认为是善意的,在茫茫人海中,想要分清对方有没有说谎,的确是一个很难的事情,我觉得可以选择将信将疑吧,在没有得到充分数据证实前,不要过于太相信。个性化的大数据运用就像一把双刃剑,而大数据最让人担心的一点就是数据个性化运营过程中的隐私安全。我们不仅要接纳先进的技术,要认真考虑科学进步带来的影响,大数据技术作为一项技术本身并没有好坏之说,但我们必须妥善对待和使用,以免造成数据滥用的问题,一个数据隐私透明化的世界,人人都会缺乏安全感,对社会发展也是及其不好的。

(2)优点与改进意见

这本书的优点在于通俗易懂,引用了许多生活中常见的例子,让我们可以更好的理解书中内容。缺点就是对于网络不好的例子较多,也可多多提出一些避免隐私透明化的有效措施。

李祖钊

选书:

①《数据挖掘:R语言实战》:

数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景不可估量。R是一款优秀的统计分析和数据挖掘软件,也是我们专业的学生的一门必修课。《数据挖掘:R语言实战》侧重使用R 进行数据挖掘,重点讲述了R的数据挖掘流程、算法包的使用及相关工具的应用,同时结合大量精选的数据挖掘实例对R软件进行深入潜出和全面的介绍,以便读者能深刻理解R的精髓并能快速、高效和灵活地掌握使用R进行数据挖掘的技巧。

在我看来,这本书比较适合先前对于R软件有一定了解,对统计学知识,对于大数据技术有一定了解的学生,不是很适合新手小白阅读,书籍有一定的深度。4分。

②《文本分析与文本挖掘》:

本书阐述了词法分析、文本分类、文本聚类、文本检索、垃圾邮件过滤等文本分析和文本挖掘方面的理论方法,对于我这种学习传统统计学方法的学生来讲,文本分析算是比较新奇的内容,因为文本这种类似于字符串类型的数据,并不在传统统计学讨论范围之内。

通过对这本书的略读,我了解了文本分析与挖掘方面的基本概念等,类似于科普类书籍,适合之前对这一领域并不了解的学生阅读。4.5分

③《非结构化数据分析》:

看到这本书,不由得想起考研复试的时候,赵老师面试的时候问到我的一个问题:对于非结构化数据如何处理?当时真的完全不知道如何去回答,甚至当时根本没有听说过结构化数据和非结构化数据这种说法。

略读了这本书后,我了解到可以基于人工智能,机器学习,深度学习等技术来处理非结构化数据(图片,声音等数据),之前对于数据的认知还是过于狭隘,本书的介绍也比较充分,通俗易懂。4分

④《菜鸟学数据分析》:

真的很少见这么简单明了的书籍,对我来讲有点过于简单,该书适合对于数据分析感兴趣但没有任何基础的同学,是入门类型的书籍。3.5分

⑤《数据即未来》:

跨专业类型的书籍,不但讲到了数据科学家的思维训练,数学统计知识的适用性,还讲到了工程性模型训练,作者语言平铺直叙,但感觉并不像是适合新手阅读的书籍,更加侧重于已有了基础知识,从而去实践和解决问题。4.5分

⑥《数据聚类》:

我推荐对聚类分析有初步了解的同学可以去浏览一下这本书,不仅介绍了传统经典算法,例如kmeans等,也探讨了高级算法部分,甚至还有多视角和多任务聚类。5分

读书:《数据可视化陷阱》

引用狄更斯的一句话“这是最好的时代,这是最坏的时代。”感觉这句话放在数据可视化的领域同样适用,这是一个充斥着数据和图表的世界。随着社交媒体的发展,每个人都成了信息来源;我们获取和传播的信息越来越多,也越来越容易犯错误。然而数据的可视化,即图表,并没有它看上去那么可信。

本书介绍了图表制作的原理、阅读因表常见的五个陷阱,解释了为什么其中隐藏着误导和扭曲,帮助读者掌握明智应对图表而不犯错误的方法,指出的五个问题是因表设计比较差,数据本身不可靠,数据不全面,混淆对图表和数据的解释,误导数据的规律。

举一个例子,可以用一个刻度非常大的纵轴来掩盖某数值型数据(因变量范围较广,或者说x轴设置是合理的)随其他数值型数据变化而变化的趋势,设置纵轴刻度为万或者十万,即使我们对于该数值型数据数以十计或者数以百计的变化都十分关心,这样的图标绘出的“平的”直线就是骗人的。所以数据编制的图表能骗人,很大程度上是因为图表的编制者希望利用这个图标去骗人,而并非图标本身可以骗人。

这本书让我了解到类似于商业伦理(对企业)的概念,就是我们作为数据可视化的呈现者,也应当有意识、负责人、客观地去呈现数据的变化与规律,而绝非是希望用更直观的方式去掩盖数据本身固有的规律。

这本书的缺点在于书的翻译有一点繁琐(由于没看过原著,也有可能是原著写的就是比较冗长),另外本书注重理论,主要是分析和观点,并没有实战指导。

王茼

选书:

《大数据安全与隐私》,评分:4.2

这本书主要介绍新兴的数据隐私保护研究领域的产生背景、基础知识(当前隐私问题、隐私法律、隐私保护模型、数据匿名化、统计数据库、隐私保护数据分析、社交网络隐私等)、隐私保护技术、实现方法、商业应用、最新研究成果和进展。研究数据实际发布过程中遇到的挑战,并对今后的研究方向提出建议。

2.《大数据处理》,评分:4.5

这本书从思维、编程、优化三个方面系统阐述大数据处理的系统架构、编程、优化等核心技术以及方法。可以帮助我们培理解大数据、处理大数据以及大数据系统优化的能力。

3.《数据科学概率》,评分:4.3

数据科学是一门正在兴起的学科,国内外各个大学开始开设数据科学课程或类似课程,并且编写配套教材。这本书在内容上按照四大模块进行组织,分别是数据科学基础、数据以及数据上的计算(分析)、数据处理基础设施/平台和工具、以及大数据的案例和实践。可以结合我们课上讲解的数据科学生命周期进行探索和学习。

4.《hadoop数据分析》,评分:4.8

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。这本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。

5.《大数据处理与存储技术》,评分4.3

这本书归纳和总结了主流数据库软件和常用数据处理工具的常见问题与应用技巧,为大数据技术与传统数据存储和转换技术相结合提供了技术参考。

读书:

《数据密集型应用系统设计》

Martin Kleppmann是英国剑桥大学分布式系统方向的研究员。此前,他曾是LinkedIn和Rapportive等互联网公司的软件工程师,负责大规模数据基础设施建设。在此过程中他遇到过一些困难,因此他希望这本书能够帮助读者避免重蹈覆辙。Martin还是一位活跃的会议演讲者、博主和开源贡献者。他认为,每个人都应该学习深刻的技术理念,对技术的深入理解能帮助我们开发出更好的软件。

译者简介赵军平, 大数据存储与分析资深开发者与推广者,GPU异构计算的亲历者。中国计算机协会专家委员,DELL EMC资深架构师。12年系统研发、创新与团队管理经验,擅长数据存储与保护, 云计算与大数据实时分析,GPU异构加速优化等,多次在SNIA,LinuxConf,Hadoop Summit, Nvidia GPU Tech Conf等做技术分享,持续关注数据密集和计算密集相关技术的演进、融合与赋能推广。

全书分为三大部分:

第一部分,主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。

第二部分,将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。

第三部分,主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据,紧接着第11章采用流式处理。第12章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。

通过读这本书,我们可以学习了解如何进行数据密集型应用系统设计,书中的内容十分完整具体,处理问题的经验比较丰富,可以让我们避免踩很多坑。

缺失和阅读建议:由于这本书是翻译过来的,所以有些地方的表述不够原汁原味,建议英语好的同学直接读英文的原书籍,这样对很多内容的理解可能是不一样的,会更加深入一些,实在读不懂的再对照中文版本理解一下,英语不太好的同学也可以读英文原文进行学习,同时也能提高英语水平。

丁旭

选书:

1、《大数据战争:人工智能时代不能不说的事》(4.1分)

在近年,人工智能作为人类发展的引擎,未来国与国之间的战争,主要争夺的是资产,尤其是数据资产,而数据既是资源又是资产,这也是各个团体之间频发数据战争的重要原因。本书梳理了数据战争的多维细分战场,对如何达成数据空间的和平治理进行了思考,值得参考和阅读。

2、《被算法操控的生活》(3.5分)

本书起源于作者的一个疑问,算法对我们的影响究竟如何?通过采访那些在算法研究领域工作的科学家,以及动手进行有趣的数学实验,他介绍了那些能够分析我们、影响我们,甚至会变得更像我们的算法。而所谓的“大家都喜欢”模式算法,除带来意外的流行之外,在难以判断优秀和普通之外,却是从广告的角度具备影响价值,但同样的是算法偏见的关键在于人类自身智能潜在的偏见,只不过在算法的基础上被显现和放大。不过总的来说,本书还是值得一读。

3、《Hadoop与大数据挖掘》(4.2分)

《Hadoop与大数据挖掘》是一本内容丰富、深入浅出的书籍。它从实用的角度出发,介绍了Hadoop和大数据挖掘的基本概念、原理、应用和案例。无论您是初学者,还是已经对Hadoop有一定了解的专业人士,本书都能为您提供有价值的信息和具体操作指南。

书中涵盖了Hadoop及其生态系统的全面知识,包括Hadoop的基本架构、分布式文件系统、数据处理模块、作业调度和监控等方面的内容。同时,本书也对大数据挖掘的常用技术和方法进行了详细介绍,如数据采集、数据预处理、信息提取和模型评估等。

《Hadoop与大数据挖掘》采用了通俗易懂的语言,将复杂的概念和技术娓娓道来,使读者能够轻松理解和掌握。书中还配有大量的案例和实际操作示例,通过实际演练,读者能够更加深入地理解和应用所学知识。

总的来说,《Hadoop与大数据挖掘》是一本很值得推荐的书籍。无论您是想深入研究Hadoop和大数据挖掘,还是希望在工作中运用相关技术,这本书都能成为您的良师益友。

4、《大数据时代》(4.5分)

大数据的到来为我们开启了一次重大的时代转型,引发了一场生活、工作和思维的大变革,书中列举了众多在公共卫生、商业服务领域大数据变革的例子,用三个部分讲述了大数据时代带来的思维变革、商业变革和管理变革。无论是产业实践者,还是政府和公众机构,本书都是非常具有价值的。

5、《Hadoop生态系统》(3.8分)

《Hadoop生态系统》是一本深入介绍Hadoop技术及其相关生态系统的权威之作。对于拥有一定编程基础且对大数据技术感兴趣的读者来说,这本书绝对是一本不可错过的杰作。本书从Hadoop的基本概念入手,通过实际案例和丰富的图表,生动地解释了Hadoop技术在大数据处理中的应用。作者通俗易懂的语言和案例引入方式,使得读者能够轻松理解并掌握Hadoop的工作原理和核心组件。与其他类似的技术书籍相比,本书的独特之处在于对Hadoop生态系统的深入剖析。无论是Hive、HBase、Spark还是Kafka,作者都以简洁明了的方式将这些关键技术与Hadoop整合,为读者呈现出一个完整而庞大的生态系统。读者可以在此书中了解到各种组件之间的关联和相互作用,深入理解Hadoop在大数据应用中的地位和作用。

除了介绍Hadoop生态系统外,本书还对大数据应用中的一些常见技术挑战进行了详细讨论。如数据安全性、性能优化等方面的问题都得到了深入解答,为读者提供了一些宝贵的实践经验和解决方案。同时,书中还提供了大量的练习题和案例研究,帮助读者巩固和应用所学知识。

总的来说,《Hadoop生态系统》是一本很好地介绍Hadoop技术及其相关生态系统的书籍。它不仅适合初学者快速入门,还可作为进阶学习和实践的指南,帮助读者真正掌握Hadoop在大数据处理中的应用。如果你对大数据技术有兴趣,那么这本书绝对值得你阅读和收藏。

精读:

《大数据时代》:

本书是一本关于大数据时代的经典著作。在阅读《大数据时代》后,我对大数据的重要性和应用领域有了更深入的了解。

这本书值得一读的地方有很多。首先,作者从历史的角度出发,深入探讨了数据的发展过程,从而使我们对大数据的概念和意义有了更加清晰的认识。其次,本书通过丰富的案例和实践经验,生动地展示了大数据在不同领域的应用,如商业、科学研究、社会发展等,这些案例不仅让我们看到了大数据的巨大潜力,也为我们提供了许多实践借鉴的经验。

在书中,关于大数据时代引发的思维变革,作者主要提出了三个核心观点:不是随机样本,而是全体样本。大数据代表着数据的“样本=全体”,区别于“小数据时代”的随机抽样,大数据分析与事物相关的所有数据。2.不是精确性,而是混杂性。执迷于精确性是信息缺乏时代和模拟时代的的产物。大数据时代我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。3.不是因果关系,而是相关关系。与我们的传统认知和行为习惯不同,大数据不执著探求于因果关系,转而关注事物的相关关系。但这并不意味着我们放弃对因果关系的探求,在暂时无法研究出因果关系的情况下,优先分析相关关系,因果关系可留待今后来解决。

然而,我认为这本书也存在一些缺失之处。首先,作者在对大数据的优劣势进行分析时,过于偏重于赞美大数据的优点,没有充分探讨其潜在的风险和挑战。此外,书中对于如何处理大数据的问题和技术方法介绍较为简单,对于对技术不太了解的读者来说可能会有一定难度。

《大数据时代》的亮点在于它对大数据的全面探索和深入剖析。它提供了大量的真实案例和数据来支持观点,并以通俗易懂的方式向读者传达了大数据对于现代社会的重要性。此外,书中还讨论了大数据对于人类发展的深远影响,让人产生了更多关于大数据未来发展的思考。

如果由我来改进这本书,我可能会更加注重对大数据的风险和挑战进行全面分析,并提供更多的实际应对方法。此外,我还会增加一些有关大数据伦理和法律方面的内容,以引导读者在大数据应用中考虑到道德和法律的问题。

综上所述,我对《大数据时代》这本书的评价是正面的。它不仅让我对大数据有了全新的认识,也让我意识到大数据对于社会发展的巨大潜力。虽然这本书存在一些缺失,但它仍然是一本值得一读的经典之作。

刘畅

  1. 《大数据领导干部读本》4.5

《大数据领导干部读本》是一本介绍大数据在政府管理和领导决策中应用的书籍。该书主要从领导干部的角度出发,探讨了大数据技术在政府决策、治理、公共服务等方面的应用。通过案例分析和理论探讨,帮助领导干部了解如何利用大数据技术来提升政府管理效率、改善决策质量,以及优化公共服务。这本书旨在帮助领导干部更好地理解和运用大数据技术,从而推动政府工作的现代化和智能化发展。

  1. 《大数据时代》4.6

书中首先介绍了什么是大数据,以及大数据的来源和特点。然后,作者详细阐述了大数据如何改变了我们对信息的处理方式,从传统的样本抽样到全面收集和分析所有数据的方法。接着,书中探讨了大数据在商业、医疗、政府、科学等各个领域的应用,并展示了大数据对这些领域带来的巨大变革和机遇。此外,《大数据时代》还深入探讨了大数据所带来的挑战和问题,例如隐私保护、数据安全、道德伦理等方面的考虑。同时,书中还提出了一些思考和建议,帮助人们更好地应对大数据时代的变化和挑战。

  1. 《数据挖掘导论》4.7

是一本经典的关于数据挖掘领域的教材,由Margaret H. Dunham编著。这本书介绍了数据挖掘的基本概念、技术和应用。它覆盖了数据挖掘的各个方面,包括数据预处理、分类、聚类、关联规则挖掘等内容,旨在帮助读者理解和应用数据挖掘技术来从大规模数据中发现有用的信息和知识。

  1. 《大数据战争:人工智能时代不能不说的事》4.6

《大数据战争:人工智能时代不能不说的事》是由吴军所著的畅销书。该书详细介绍了大数据和人工智能对当今社会和未来发展的重要影响。它从技术、商业和社会等多个角度探讨了大数据和人工智能的发展趋势,以及它们对个人和组织带来的深远影响。

  1. 《数据失控:算法时代的个体危机》4.6

《数据失控:算法时代的个体危机》是由克里斯托弗·斯特鲁伊所著的书籍。该书探讨了在算法时代,大数据和机器学习技术如何影响了个人的权利、隐私和社会公正。作者通过案例和分析,提出了对于数据使用和算法决策的反思,以及如何应对数据时代个体面临的挑战。

安冉

1、 选书

(1)《Spark大数据处理与分析》评分:4.3分

本书是Spark技术入门的基础类书籍,主要讲解一些Spark编程技术的基本概念、原理和编程方法,读完之后能够进行一些应用程序的实际开发。对于初学者来说很适合。

(2)《Pandas入门与实战应用》评分:4.6分

该书首先讲解Pandas快速入门的基础知识,如Pandas的定义、可处理的数据类型、优势、开发环境配置、常用的数据结构等。然后通过实例剖析讲解Pandas数据的导入、导出、查看、清洗、合并、对比、预处理。接着讲解Pandas数据的提取、筛选、汇总、统计及可视化。然后讲解Pandas数据的线性模型和广义线性模型,最后讲解Pandas数据实战分析。总体来说有助于新手入门以及算法复习。

(3)《被算法操控的生活》评分:4.5分

此书通过采访那些在算法研究领域工作的科学家,以及动手进行有趣的数学实验,深入浅出地告诉读者算法如何使用数据,知道人工智能将如何改变我们的日常生活。

(4)《干净的数据——数据清洗入门与实践》[美] Megan Squire,评分:4.5分

这本书是一本非常实用的指南,它主要介绍了数据清洗的基本概念和技巧。还详细讲解了数据收集、数据质量评估、缺失值处理等关键的步骤。这本书最优秀的地方是它非常实用,有丰富的示例和实践案例,让读者能够从实践的角度更好地理解和应用所学知识。我认为这本书非常值得入门的同学进行参考学习。它不仅仅编写风格简洁明了,还注重实践操作;并且每个章节都有详细的步骤说明,我们可以边学边做。且对于有一定大数据基础的专业同学来说,也能在书中找到合适的参考资料。

(5)《数据分析师宝典》 评分:4.8分

数据分析结果是否有效、是否能体现应有的价值,有时关系着企业经营的成败,但到底该如何确保数据分析的结果是有效的呢?本书就是数据分析知识的宝典,通过“案例+方法”的方式为数据分析人员提供全面、实用的理论指导和丰富、有效的实战案例。如何在一本书中既简单有效地传播数据分析的相关概念,又可以让读者快速入门,是编写本书的过程中重点解决的问题。

(6)《数据即未来:大数据王者之道》评分:4分

作者结合自己的亲身经历讲述数据科学从项目准备、解决方案构建到姜木交付的全部过程,提供一些案例,教授大家解决现实世界中以数据为中心的问题。

(7)《算法霸权》评分:4。1分

《算法霸权》是一本由美国计算机科学家Pedro Domingos所著的计算机科学领域的畅销书籍。该书主要介绍了机器学习、人工智能、数据挖掘等领域的基本概念和最新进展,以及这些技术对社会、经济、政治等方面的影响。在书中,作者强调了算法在现代社会中的重要性和影响力,同时也指出了算法带来的风险和挑战。作者认为,算法是我们生活中的新宗教,我们应该更加了解它们的工作原理和潜在影响。

2、 读书:

《算法霸权》

作者在华尔街对冲基金德绍集团担任过金融工程师,后来去银行做过风险分析,再后来去做旅游网站的用户分析。后来辞职专门揭露美国社会生活背后的各种算法的阴暗面。

书中提到的算法的技术缺陷,我归纳为两点:第一个比较致命:不准确。不准确有两种体现,首先是算法先天的问题,比如教师评估算法,针对大规模的学生来评估教学质量是可行的,但是具体到一个教师,每年只教30个学生,如果这30个学生中有一两个极好或极差的,会导致对教师的评估出现很大的波动。

算法不准确的第二种情况是得不到反馈因此没法逐步优化,作者举一些美国公司采用的招聘评估软件为例,及可能把一些不合格的员工派出在外了,但是雇主不关心,算法得不到反馈因此得不到改进的机会。

另外一大缺陷是不公开导致有效益但不公平。还是以招聘时候的评估算法为例,会把一些人拒绝,拒绝的原因有可能是跟罪犯同名之类的错误,更有可能是因为应聘者的种族、居住地等信息。

书中提到算法在加重美国的贫富分化。除了招聘评估算法外,预计犯罪地点的算法,实际只能预测轻度犯罪,这一类犯罪在贫民区更多,反过来会强化警察在贫民区的巡查,在贫民区抓获更多轻度犯罪者投入监狱。

美国的营利性大学(按书中描述跟国内的莆田系有一拼),靠算法帮助,把营销目标集中的穷人身上,让他们花相对高数倍的学费,得到的文凭在人才市场上跟高中文凭价值接近。

作者提出的改善措施是:自律、监管、公开。算法工程师要像医生一样自律,政府需要监管算法的逻辑,算法的逻辑和计算结果需要公开

张子为

1.《大数据时代》(”Big Data: A Revolution That Will Transform How We Live, Work, and Think”)(4.4分)

作者:Viktor Mayer-Schönberger 和 Kenneth Cukier

内容简介:本书讨论了大数据时代的兴起,以及这一趋势对社会、经济和科学的影响。它介绍了大数据的基本概念、技术和应用,并讨论了大数据时代可能带来的变革。

2.《大数据:驱动企业未来》(”Big Data: A Revolution That Will Transform How We Live, Work, and Think”)(4.3分)

作者:Kenneth Cukier、Viktor Mayer-Schönberger 和 Andrew McAfee

内容简介:这本书与前述《大数据时代》有一定关联,深入讨论了大数据在企业中的应用,以及对商业和组织模式的影响。作者通过案例研究展示了大数据在解决实际问题和推动创新方面的潜力。

3.《大数据:互联网时代的商业价值》(”Big Data: A Revolution That Will Transform How We Live, Work, and Think”)(4.5分)

作者:Viktor Mayer-Schönberger 和 Kenneth Cukier

内容简介:这本书强调了大数据如何成为企业在互联网时代取得竞争优势的关键。它涵盖了大数据的商业应用,包括在市场营销、运营和决策制定方面的运用。

4.《大数据的革命》(”The Big Data-Driven Business: How to Use Big Data to Win Customers, Beat Competitors, and Boost Profits”)(4.1分)

作者:Russell Glass 和 Sean Callahan

内容简介:这本书主要关注大数据如何改变业务和决策制定。它提供了一些建议,帮助企业了解如何利用大数据来吸引客户、击败竞争对手并增加利润。

5.《大数据之美》(”Beautiful Data: The Stories Behind Elegant Data Solutions”)

编者:Toby Segaran 和 Jeff Hammerbacher(4.0分)

内容简介:这本书通过一系列故事展示了如何有效地处理和分析大数据。每个故事都介绍了一个真实的数据挖掘或大数据处理问题,并探讨了解决方案背后的思想和技术。

  1. 杨远丰《建筑工程设计BIM深度应用——BIM正向设计》(4.8分)

在目前的技术环境下,BIM技术和大数据已经逐渐向相互融合的方向发展。 随着建筑行业信息化水平的不断提高,BIM技术已经被广泛应用于建筑设计、监管、施工、运维等各个领域。同时,在大数据技术的支持下,BIM技术也逐渐实现了海量数据的存储和智能化分析。目前,BIM与大数据的结合已经推动了建筑行业的数字化转型,并且开始产生了一系列的趋势。首先,在大数据技术支持下,BIM技术可以更加准确地预测、监测和控制建筑物的运行状态。借助大数据技术提供的海量数据BIM技术可以对建筑物的运行数据进行分析,并通过智能化算法预测和识别设备故障、维修需求等问题。这不仅能够提高建筑物的可靠性,还能减少维修成本和操作风险。其次,BIM技术结合大数据技术,可以支持建筑项目的整体管理。通过数据的整合和分析,BIM技术可以实现对建筑项目每个环节的跟踪和监管。同时,它还能够提供对建筑物的维保和管理,以及对建筑物的使用情况和性能的实时监控。

最后,BIM技术结合大数据技术还可以实现建筑物的设计和优化。借助大数据技术提供的海量信息,BIM技术可以优化建筑物的设计方案,提高建筑物的能效和环保性能。这不仅能够减少建筑物的能耗和对环境的影响,还能为用户提供更加舒适和高效的生活环境。

建筑信息模型(Building Information Modeling)是建筑学、工程学及土木工程的新工具。建筑信息模型或建筑资讯模型一词由Autodesk所创的。它是来形容那些以三维图形为主、物件导向、建筑学有关的电脑辅助设计。

近年来国内很多设计企业投入了极大的热情进行BIM正向设计的研究、实践,也有不少堪称成功的项目案例,然而从企业层面而言,能成功从传统CAD设计模式顺利转型为BIM正向设计模式,并且以可持续的方式实现良性循环的设计企业可以说凤毛麟角。实践表明,BIM正向设计绝非易事。

很多设计企业将其主要原因归结为软件问题,认为通过设计人员的软件技能培训,即可解决BIM正向设计的瓶颈问题,然而一旦受挫,又将原因归咎于BIM设计软件的功能、效率、操作难度等方面的局限,继而失去信心,放弃尝试。这种成败系于软件的看法非常普遍,但我们认为并没有抓住重点。重点在于,BIM正向设计是整个建筑设计过程的流程再造与优化升级,需要企业层面的体系化支撑。

它不单单是通过BIM软件建立BIM模型进行设计、并且出图,更关键的在于多专业的协同设计、互提资料、校对、审核、交付、归档、变更,乃至设计过程中的讨论、汇报,施工配合阶段的交底、工地巡场等全流程生产方式的切换。

只有将BIM模型、BIM软件作为日常设计、交流的工具,习惯成自然,才能形成可持续发展的生产力。

而这个生产方式的转变,离不开企业自上而下的策划与管理。BIM正向设计由于多专业紧密配合,其图面表达又来自于三维,因此与CAD模式相比,规则繁多、要求严谨;粗放的管理模式不适合BIM正向设计;没有强有力的企业级技术管理,则难以形成技术迭代,无法从根本上提高效率。

诸如设计样板文件、企业构件库的建立与维护,建模与出图规则的制定与落实,技术难点的研究与探索,易错点的总结与宣贯等等,无不依赖于企业管理层面的主导。从这个角度看,说BIM正向设计是设计企业的“一把手工程”实不为过。

从技术层面看,BIM软件的操作当然是一个根基,但一个普遍的现象是——“会BIM建模容易,会BIM设计很难,会BIM协同设计+出图更难”。原因在于目前看到的很多BIM教程、培训课程,着重讲述软件建模操作,即使有讲到出图,大多是单专业的基本图面表达,缺乏多专业之间互相配合协调、互相引用组合形成整合交付成果的深入介绍,对基于BIM模型出图如何尽量贴近传统二维表达缺乏深入的研究,鲜少看到有系统化的解决方案。因此,设计人员学会建模操作不难,但一到实战往往遇到无数的细节问题,摸索的过程事倍功半,让人疲惫不堪。

王启凯

一:选书

1、《算法霸权》

《算法霸权》是一本由美国计算机科学家Pedro Domingos所著的计算机科学领域的畅销书籍。该书主要介绍了机器学习、人工智能、数据挖掘等领域的基本概念和最新进展,以及这些技术对社会、经济、政治等方面的影响。在书中,作者强调了算法在现代社会中的重要性和影响力,同时也指出了算法带来的风险和挑战。作者认为,算法是我们生活中的新宗教,我们应该更加了解它们的工作原理和潜在影响。

2、《小白学数据挖掘与机器学习——SPSS Modeler案例篇》

《小白学数据挖掘与机器学习——SPSS Modeler案例篇》是一本由王亚军、邢志强等人合著的数据挖掘和机器学习方面的书籍。该书以SPSS Modeler为工具,通过实际案例讲解数据挖掘和机器学习的基本理论和实践技巧,适合初学者阅读。

该书共分为两部分,第一部分介绍了数据挖掘和机器学习的基本概念和流程,包括数据预处理、特征工程、模型选择和评估等内容。第二部分则通过多个实际案例,讲解如何使用SPSS Modeler进行数据挖掘和机器学习。这些案例包括预测贷款违约、预测销售额、分类客户等

3、《被算法操控的生活》

《被算法操控的生活》是一本由美国哈佛大学教授、社会学家、作家、演说家泽伦·拉尼尔(Zeynep Tufekci)所著的书籍。该书主要探讨了当今信息时代中,算法对我们生活的影响和操控。

二、读书

仔细阅读:《算法霸权》

《算法霸权》是一本由美国作家凯瑟琳·奥尼尔(Cathy O’Neil)所著的畅销书。该书主要探讨了算法在现代社会中的广泛应用以及其潜在风险和影响。这本书从数学和技术角度出发,阐述了算法在金融、教育、就业、法律和刑事司法等领域中的重要作用。它指出了算法对我们的日常生活产生的不可忽视的影响,并深入探讨了其中可能存在的偏见、歧视和不公正问题。作者通过举实际案例以及有关数据科学和机器学习的具体概念来支持她的观点。她提出了一些关于公平性、透明度和责任性的问题,同时呼吁人们更加警惕算法的潜在滥用。《算法霸权》向读者揭示了算法如何塑造我们的世界,并强调了我们需要对其进行适当的监管和审查的必要性。它引发了人们对算法权力和社会正义之间的关系的思考,并促使公众更加关注个人隐私保护和数据伦理问题。

读完《算法霸权》,我对算法在现代社会中的影响和潜在风险有了更深刻的认识。这本书以简洁明了的语言和丰富的案例向读者展示了算法的广泛应用领域,如金融、教育、就业、法律和刑事司法等。通过揭示算法背后的数学原理和技术细节,作者成功地让我意识到了算法对我们日常生活的巨大影响。令我印象深刻的是作者对算法中潜在的偏见、不公正和歧视问题的深入分析。通过案例的呈现,她清楚地阐述了算法中可能存在的性别、种族和经济因素的偏见,这引发了我对算法是否能够真正公平和透明的质疑。书中提到的一些具体例子,如招聘算法导致的性别歧视和犯罪预测算法的不公正,使我深思算法在决策中的潜在弊端。

除了揭示问题,作者还提出了解决方案。她呼吁更多的监管和审查来确保算法的公正性和透明度。此外,她强调了公众对算法的重要性,我们需要更多地了解和关注算法如何影响我们的生活,并参与到算法决策的制定中来。读完这本书,我对算法的态度发生了变化。我认识到算法不仅仅是一种技术工具,它们正在塑造着我们的社会和日常生活。我们需要更加警惕算法的潜在滥用,并努力推动算法的公正和透明性。

总的来说,《算法霸权》是一本引人深思的书籍。它向我们揭示了算法在现代社会中的广泛应用,同时提醒我们要保持警觉,避免算法带来的负面影响。这本书对于对算法和数据科学感兴趣的读者以及关注科技与社会交互影响的人们来说是必读之作。它为我们理解和思考算法的力量和责任提供了一个重要的视角。

杨奎山

(1)《大数据战争:人工智能时代不能不说的事》——4.5分:

除了企业需要关注数据合规外,每个公民都应提高个人信息保护意识。我们可能已经习惯了接受个性化广告、享受定制化服务的便利,但是否意识到这些“个性化”和“定制化”的服务都建立在对我们个人信息的挖掘和分析之上?如果“个性化”和“定制化”成为常态且不被我们所知,我们不禁要怀疑,我们所见的世界是真实的世界,还是被操控的世界。这本书作者何渊教授团队既有深刻的法律法规理论造诣,又具备产业发展实战经验,是业内难得的理论与实践完美结合的团队。书中分为三篇十二章,除了两篇理论介绍外,其他章节都围绕实际案例,并从法学角度解释其中的规律。这种深入浅出的科普方式对普通读者非常友好,读者通常会在阅读后获得豁然开朗的感觉。

(2)《洞见数据价值——大数据挖掘要案纪实》——4.1分:

这本书似乎提供了一个全面而实用的观点,介绍了大数据在各个领域的应用方案和前景,并且通过案例向读者解析数据的价值和意义。其中包括了:应用领域广泛:书中涵盖了银行业、征信业、审计、传统制造业、互联网行业、舆情监控、影视业、环保产业以及体育产业等多个领域的大数据应用方案。这些实际案例可以帮助读者更好地理解大数据在不同行业的应用场景和潜在价值。商业工作和营销推广:第2章重点介绍大数据分析在商业工作和营销推广中的作用。这一部分可能会讨论如何利用大数据分析来改善企业的决策过程、优化市场推广策略以及提高客户满意度。这些内容对于从事商业和市场营销的人士来说应该非常有价值。数据准备工作的要点和诀窍:第3章似乎探讨了数据准备工作的重要性,并提供了一些实用的指导原则和技巧。数据准备是进行有效数据分析的关键步骤,因此这一章节可能会对数据工作者和研究人员有所帮助。实际应用方式:第4章似乎以寓教于乐的方式介绍了大数据的实际应用方式,结合业务、生活和娱乐等场景。这种实践性的探讨可能会为读者提供一些启发,激发他们对大数据应用的创新思维。

(3)《数据失控:算法时代的个体危机》——4.9分:

这本书的前半部分详细介绍了算法如何生成知识,以及如何通过数据模型给我们贴上各种标签,从而形成算法身份,并悄悄地对我们的生活进行调控。通过《任天堂健身游戏》的案例,阐述了算法牢笼的概念。由于这些可度量的类型会不断调整,以最佳方式适应所描述的群体,不断地重新定义我们,因此书中提到“可度量型的模糊性让位于延展性”。后半部分涉及主体性和隐私。其中,作者对“余者”的概念表现出浓厚兴趣,将其与芝诺的二分法悖论相联系。你是否听说过这个故事?从塞萨洛尼基城到雅典,走一半路程然后休息,然后再走剩下的一半路程,再休息,如此往复,永远也无法到达雅典,即使已经非常靠近城墙。这种无止境的二分意味着我无法走完全程。余者是我们可以利用的主观杠杆,用以解决和解释算法生活中不可避免的不足。正因为有了“余者”,算法公民身份永远不会与血统和出生地的公民身份完全一致,而技术正努力不断缩小“余者”的范围。

(4)《大数据基础–走进大数据》——4.1分:

《大数据思维》是为非大数据专业的职业院校学生编写的普及教材,旨在传授大数据思维和应用知识。随着人类社会步入互联网和通讯技术引发的大数据时代,大数据已广泛渗透到我们的生活和工作中。每位学生都应该了解和认可大数据的价值,培养大数据思维。本书从数据时代的介绍开始,阐述了大数据的历史发展和定义,并通过生动的实例说明了如何发挥大数据在管理、商业、金融、工业和生态等领域的价值,以及大数据与物联网、云计算、人工智能、区块链等技术之间的关系。此外,本书还特别介绍了贵州省作为国家大数据实验区,如何通过大数据产业强省战略取得了一系列成果。最后,本书专门探讨了大数据思维,旨在帮助学生在大数据时代提升思维水平。

但是文章逻辑有些奇怪,部分章节看的云里雾里。

(5)《数据的真相》——4.9分:

非常有趣的小书,基础,适合没有学过统计学,其他人也可以随便翻翻,很喜欢其中的例子,讲述的方式也能引起你的兴趣。全书由许多小章节组成,每一小章节是一篇相对独立的短文,讲一种数据造成的误解/误导,和读者的反误解/反误导方法。比如说看数据的话美国的副市长的平均工资高于市长的平均工资,细究的话实际是许多小镇没有副市长,只有一个低薪的市长,有副市长的都是相对较大的市镇。

解欣睿

选书:

1.《数据可视化与数据挖掘》 4.4

这本书由王国平所著,本书主要讲了数据可视化和可视化数据挖掘的基本理论及主要软件和操作,前者主要Tableau、QlikView和PowerBI,后者主要包括IBM SPSS Modeler\Intelligent Miner 和SAS Enterprise Miner。

推荐理由:书中花了9个章节来讲述原理和操作,后面又花了6个章节来分别实操了在6个行业的实际应用,内容全面,讲解详细,由浅入深,循序渐进,案例丰富,非常适合自学,推荐每一位对数据可视化感兴趣的小伙伴去看。

2.《人人都会数据分析》 4.8

《人人都会数据分析》是由谢运恩和李安富所著,他们从生活的角度出发循序渐进的展开介绍统计学,是的,他们介绍的是统计学的原理知识,我感觉他们这本书的副标题《从生活实例学统计》更加贴合这本书的内容。

推荐理由:首先,这本书的作者运用的引例和语言比较通俗易懂,更易于读者去接受。其次,这本书的逻辑非常清晰有层次,是非常适合入门统计学的书籍。如果有小伙伴对统计学感兴趣或者想了解统计学的一些基本知识,强烈推荐去看这本书,看完这本书之后,如果你还想更多的了解统计学,可以再去学一下多元统计分析,那么等你看完这些,你就可以和别人说:“I’m a statistician,too”。

3.《小白学数据挖掘与机器学习》 4.5

张浩彬写的《小白学数据挖掘与机器学习》介绍了数据挖掘的基本概念和数据挖掘二等方法论,然后介绍了SPSS工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。全书内容循序渐进,完整的覆盖了数据挖掘与机器学习的主要知识点。

推荐理由:本书采用漫画和文字图片相结合的形式,以轻松有趣的方式介绍了数据挖掘和机器学习,图文并茂,生动形象。同时在每章的最后都附上应用案例,能够帮助读者更轻松地阅读这本书并掌握对应的算法和实践操作。推荐对数据挖掘和机器学习感兴趣的小伙伴们去阅读这本书。

4.《大数据分析与挖掘》 4.3

石胜飞编著的《大数据分析与挖掘》这本书讲了数据特征分析与预处理、关联规则、分类与回归算法、聚类算法、异常检测这几部分。

推荐理由:虽然这本书不是综合全面性的介绍数据分析和数据挖掘,但是这本书非常适合实操,这本书里面有大量的代码去实现这些模型,非常适合自学入门。另一个推荐的理由是这本书竟然有配套的习题,而且每个章节的习题并不是一个大项目,大数据,它就是一个很小的问题,运用本章学到的知识和算法去解决它,这就使得这本书的实操价值拉满,简直太爱了。比较推荐喜欢动手实操的小伙伴们去阅读这本书。

5.《大数据特征降维——粗糙集特征选择的群智能方法及应用研究》 4.2

这本书是由胡玉荣所著,该书侧重于粗糙集与群智能方法的结合来实现特征降维,主要介绍了粒子群优化、蚁群优化、蜂群优化与粗糙集的特征选择方法,并展示了银行个人信用评分中的特征选择的案例。最后介绍了基于群智能和粗糙集的特征选择在高维数据中的应用。

推荐理由:这本书在介绍原理方面逻辑清晰,循序渐进,能够很清晰的表达出这些算法的思想,让读者对这些特征选择方法能够有一个清晰的认知。另一方面这本书给出一个案例,能够使读者更深一步了解书中的特征选择方法怎么使用。对于研究方向是特征选择、特征降维方面的同学这本书可以提供一个很好的参考。

6.《大数据案例精析》 5.0

这本书是由媱国章所著,通过书的名字就可以发现这本书主要是介绍大数据应用案例的,本书一共介绍了12个案例,分为基础篇和综合篇,由浅入深。

推荐理由:我给了满分评分并不是说该书有多完美,而是因为对于有这方面需求人,他确实是一本难得一见的好书。这本书讲了12个案例,每个案例都是一个典型的大案例,更是公司实际运营中要解决的问题。每个案例都剖析的特别深刻,逻辑有层次,将问题逐个拆解,又逐个击破,每个案例结束后都会有一个案例评析。强烈推荐将来想从事大数据行业的小伙伴们去精读一下。

7.《爬虫实战》 4.4

这本书是由贺思聪所著,该书介绍了爬虫的基本知识、基于位置信息的爬虫、网站信息抓取可视化、基于逆向分析小程序的爬虫等,不过这本书并不是很基础,不太推荐没有爬虫基础的同学去阅读。

推荐理由:该书最大的特点就是作者手把手的教你去爬虫,该书给出了大量的代码,每个代码都有相关的解释,并且每个过程、步骤以及操作,作者都截图下来放在书中,非常适合想自学爬虫的同学去读。为什么不太推荐没有爬虫基础的同学阅读,因为这里面有一些关于爬虫的一些基本原理的基本概念的知识,书中并没有详细展开解释,如果对与爬虫过程中用到的相关基本概念和知识不清楚的话,阅读起来会有一定的困难。不过推荐有一定爬虫基础知识的同学去跟着实操学习一下。

精读:

《人人都会数据分析》

这本书首先介绍了数据分析在我们的生活中无处不在,并介绍了数据分析的一般过程和数据分析工具,然后依次介绍了数据类型(包括连续数据和分类数据)、数据的集中趋势(平均值、众数、中位数)、数据的离散程度(极差、平均偏差、方差和标准差、变异系数和四分位极差)、数据的分布形态描述(包括离散型概率分布和连续性概率分布、正态分布作为二项分布的近似、正态分布作为泊松分布的近似)、抽样(包括抽样方法和样本推断)、抽样分布(包括切比雪夫定理、Z分布、T分布、F分布、卡方分布)、参数估计(点估计、区间估计)、假设检验(单样本的假设检验、双样本的假设检验、多样本的假设检验和方差分析)、非参数检验(卡方检验、Wilcoxon符号秩检验)、相关分析(相关系数)、回归分析(简单线性回归分析、多元线性回归分析)、时间序列(长期趋势分析、季节变动趋势分析、循环变动和不规则变动、时间序列应用)、数据可视化(箱线图、P-P概率图、Q-Q概率图、直方图以及一些其他常用统计图)。这本书对于统计学知识的介绍可以说是比较全面的了,且书中内容逻辑感强、结构合理,对于统计知识的讲述非常的通俗易懂。

优点:

这本书的作者从生活实例出发,运用的引例和语言比较通俗易懂,更易于读者去接受。并且,这本书比较全面的覆盖了统计学最基本的原理知识,如果不了解统计学的读者去阅读这本书,可以很快的了解统计学、走近统计学。同时,这本书的逻辑非常清晰有层次,是非常适合入门统计学的书籍。

缺点:

如果这本书想做统计学入门系列的话,缺少多元统计分析方面相关的知识。

2.一些重要的公式并没有详细的推导过程。

3.这本书介绍的统计学内容比较基础,很多原理并没有推导过程,也没有展开来讲,因此只适合统计学入门学习,并不适合深入学习统计学。

改进:

书中缺少关于峰度、偏度的知识点介绍,如果是我的话,我会增添这部分内容,因为峰度和偏度对于更好地认识和了解正态分布起着重要的作用。

2.在回归分析章节,我会加入回归分析诊断知识点,让读者认识到统计学里面的回归分析并不只是构建线性模型和最小二乘估计。

3.我会对非参数检验做一个系统的介绍。本书中关于非参数检验方面的方法介绍太少了,其实非参数检验也是一个非常成熟的统计方法,它所包含的内容非常丰富,且在统计学领域也占据非常重要的地位,在经典模型不满足假定条件的情况下,非参数检验有着非常重要的应用。

4.相关分析中我会加入列联表分析、斯皮尔曼相关系数。

5.如果是我的话,我会把方差分析单独拿出来作为一章节来介绍,因为方差分析在统计学的地位很高、应用很广,非常有必要单独作为一个章节来进行介绍。

魏成波

图书1:《大数据时代》(作者:维克托·迈尔-舍恩伯格)4.5/5

介绍:本书探讨了大数据时代的兴起,分析了大数据对商业、科学和社会的影响。它提供了深入的见解,帮助读者理解大数据的概念、技术和应用。

图书2:《大数据:互联网时代的商业与社会革命》(作者:马奇)4.2/5

介绍:该书关注大数据如何在商业和社会中引起革命性的变化。作者讨论了大数据的基本概念、技术和应用,并通过实际案例展示了它在不同领域的影响。

图书3:《数据之美:信息图表如何改变我们的世界》(作者:大卫·麦克卡尼)4.7/5

介绍:尽管主题更广泛,但本书详细介绍了数据可视化的重要性,以及如何有效地呈现和理解大数据。对于那些关注数据分析和可视化的人来说,这是一本很有价值的书。

图书4:《Hadoop权威指南》(作者:汤姆·怀特、杰克·诺尔、比尔·怀特)评分:4.4/5

介绍:这本书是关于Apache Hadoop的权威指南,涵盖了Hadoop的核心概念、架构和实际应用。适合那些希望深入了解Hadoop及其生态系统的读者。

图书5:《Spark大数据处理》(作者:撒哈拉赫·谢哈巴兹)4.3/5

介绍:本书专注于Apache Spark,解释了这个大数据处理框架的原理、架构和最佳实践。对于那些希望在大数据处理中使用Spark的人来说,这是一本很有价值的指南。

阅读了这几本关于大数据应用的图书后,我深感对这一领域有了更为深入的认识。这些书籍从不同的角度探讨了大数据的概念、技术和应用,为我打开了一扇通往数据世界的大门。

《大数据时代》通过对大数据对商业、科学和社会的影响进行深入的分析,让我更好地理解了大数据时代的来临以及其对各个领域的重要性。这本书不仅提供了深刻的见解,还通过实际案例使抽象的概念更具体。

《大数据:互联网时代的商业与社会革命》通过生动的案例研究展示了大数据对商业和社会的深刻影响,唤起了我对大数据作为社会变革动力的认识。尽管有时技术层面的讨论较多,但整体而言,这本书为我提供了对大数据应用广泛领域的全景认识。

《数据之美:信息图表如何改变我们的世界》以数据可视化为切入点,强调了信息图表对于理解大数据的重要性。通过详实的例子和实用技巧,我对于如何更好地呈现和理解数据有了更深入的认识,使得枯燥的数据变得生动有趣。

《Hadoop权威指南》作为关于Apache Hadoop的权威指南,深入介绍了Hadoop的核心概念和架构,为我提供了深入了解和掌握Hadoop的重要参考资料。尤其对于初学者而言,这本书是理解和应用Hadoop的不可或缺的指南。

《Spark大数据处理》聚焦于Apache Spark,通过清晰的语言和实用的例子,使得复杂的概念更容易理解。对于希望在大数据处理中使用Spark的读者,这是一本很有价值的指南,帮助我更好地理解和应用Spark技术。

综合而言,这些图书共同构成了一个关于大数据应用领域的广泛而深刻的知识体系。每一本书都为我提供了独特的视角,使我更好地理解了大数据的核心概念、技术和实际应用。这次阅读让我更加确信,大数据不仅是一项技术,更是引领着商业和社会发展的重要力量。

姜美茹

选书:

《大数据挖掘与分析》 - 这本书可能对大数据应用方面有深入的介绍,可以了解数据挖掘和分析的最新方法。 推荐语:深入浅出,带你了解大数据背后的奥秘。评分:4.5分

《机器学习实战》 - 机器学习是大数据应用中的关键技术,这本书可能提供了实际的案例和实践经验。 推荐语:实用性强,适合初学者入门。评分:4分

《Python数据分析》 - Python在数据科学领域应用广泛,了解其数据分析库可能对实际工作有帮助。 推荐语:简单易懂,助你掌握Python数据分析利器。评分:4.2分

《人工智能:一种现代方法》 - 人工智能是大数据应用的前沿领域,这本书可能提供了全面的介绍和实践案例。 推荐语:通俗易懂,带你领略人工智能的魅力。评分:4.7分

《数据驱动:从证据中找到商业价值》 - 数据驱动决策是大数据应用的核心,这本书可能提供了关于如何有效利用数据的实践方法。 推荐语:实战经验分享,助你在商业中找到数据的真正价值。评分:4.5分

读书:

我选择深入阅读《大数据挖掘与分析》和《人工智能:一种现代方法》。

《大数据挖掘与分析》

这本书为我提供了对大数据挖掘和分析的深刻理解。我学到了关于数据挖掘技术和方法的实际应用,对于处理大规模数据集时的挑战有了更清晰的认识。书中的案例研究和实践指导使我能够将所学知识应用到实际项目中。

优势:

提供了丰富的案例和实践经验。

对大数据处理和分析的技术细节有详细讲解。

不足:

某些章节可能过于深入,对初学者来说可能有一定难度。

改进建议:

在一些复杂概念的解释上,可以增加更多的实例,以帮助读者更好地理解。

《人工智能:一种现代方法》

这本书为我打开了人工智能的大门,深入探讨了现代人工智能领域的核心概念和方法。作者通过清晰的讲解和实例演示,使我对机器学习、深度学习等领域有了更深刻的理解。

优势:

全面涵盖了人工智能的各个方面,从基础到深度学习。

提供了丰富的代码示例和实践项目。

不足:

一些高级概念可能需要更多的数学基础,对于非数学专业的读者可能有一定挑战。

改进建议:

在数学基础的解释上,可以提供更多的补充材料或引导,以帮助读者更好地理解相关概念。

总的来说,这两本书都对我的学习和实践有很大的帮助,为我在大数据应用领域的探索提供了坚实的基础。

马博程

1、《图解Spark:大数据快速分析实战》,4分,介绍了Spark的原理以及特点、流式计算原理以及一些机械学习库,同时还讲了一些具体算法,例如作业调度和资源分配的算法等,建议有一定基础的同学阅读

2、《数据大泄露:隐私保护危机与数据安全机遇》【美】雪莉大卫社夫,本书详细介绍了数据泄露,包括其危害性、控制数据泄露风险的技巧、数据泄露的新型场景等,比较有意思,很涨见识,4分

3、《数据失控:算法时代的个体危机》讨论了我们产生的数据是如何“说话”的,即讨论如何通过算法将我们日常产生的数据转化为有用信息传递给市场营销人员、政治竞选人员等,比较有趣,4分

4、《大数据交通——从认知升级到应用实例》

这本书并不是在大数据分区找到的,而是在交通分区路过时偶然发现的,有意思的是本书的上架指导也是汽车管理,我选择这本书的主要原因是我的研究方向是车联网,而这本书则是介绍了大数据与交通的融合,虽然都是一些比较浅显的东西,但对我的认知还是有很大的帮助的。

这本书介绍了大数据在交通方面的应用,包括高铁、公路、民航方面,在我们日常出行、运输、物流、配送等方面大数据应用逐步加深,还提到了智能交通(ITS),这是我最感兴趣的地方,即在道路上将先进的信息技术、通信技术、控制技术等有效集成并应用于交通系统,以雄安新区为例,雄安新区正在建设智能能交通系统,人、车、路做到统一、协调、融合,雄安新区未来能够做到智能公共交通为主、无人驾驶私家车个性化出行为辅的出行方式,其中产生的数据量之大可想而知,而如何应用大数据技术处理这些数据产生有用的信息至关重要,有时甚至要求极快的处理速度。我们不仅要求车与道路设备进行互动,还要求车车互动(V2V),让不同车辆同时发送交通指示信息和数字化信息,在车辆之间形成数据同步,为车内乘客提供更加安全的服务

不过有一说一,这部书在专业知识方面还是不够深入,我真正感兴趣、让我有所收获的部分占比很少,其他都是一些皮毛,不过我相信,随着我学习的深入将更加深入的认识大数据在车联网方面的应用。

唐敏恒

《大数据时代》,3分,这本书介绍了大数据如何改变我们的生活、商业和社会,并探讨了大数据时代的挑战和机遇,建议想浅了解大数据相关知识的同学阅读。

《数据化战争》,4分,讲述了数据在当今竞争激烈的商业环境中的重要性,并提供了关于数据战略和数据驱动决策的实用建议。

《大数据营销》,4分。这本书从营销的角度探讨了大数据的运用,包括如何收集、分析和利用大数据来实现更精准的营销和客户关系管理,和日常联系较为紧密,值得简单阅读一下。

《Python大数据处理与分析实战》,5分,这本书介绍了使用Python进行大数据处理和分析的实际应用。它涵盖了Python的相关库和工具,以及处理和分析大数据的常见技术和方法,值得大数据初学者学习。

《大数据:互联网大规模数据挖掘与分布式处理》 ,5分,这本书介绍了大数据处理和分析的基本概念、方法和技术。它涵盖了数据挖掘、分布式处理、机器学习等方面的内容,并提供了实际案例和应用场景,对于初学者来说与读起来具有一定难度,建议先行补充一下深度学习的知识再阅读。

刘腾

大数据专业英语教程

作为一本教材,《大数据专业英语教程》这本书全面详细的介绍了有关于大数据的专业英语知识吗,闲暇时的翻阅有助于我们阅读和理解英文文献。

数据标注工程

大数据和人工智能的飞速发展,数据标注工程也需要大量的人来做。书籍将数据标注的理论和实践结合在一起详细带读者了解了数据标注工程的意义和实践。

大数据可视化实践

大数据体量大、多样、变化快、价值密度低,所以数据的可视化可以让数据的管理更加客观、针对性更强。《大数据可视化实践》书籍从实践角度实现大数据的可视化,有助于了解大数据可视化技术和大数据本身特征。

hadoop与spark入门

hadoop与sapark作为处理大规模数据的选择,此书是掌握两大工具的起点,利用Hadoop来处理分布式存储和分布式计算,了解HDFS、MapReduce等关键概念。而Spark则将为你揭示其强大的数据处理和分析能力,包括批处理、流处理和机器学习等领域。

大数据与人工智能

大数据与人工智能密不可分,书籍详细全面的介绍了人工智能和大数据如何很好地进行协同工作。

杜飞

《大数据分析与应用》樊重俊、刘臣、霍良安编著 TP311.13/954 4分

本书从大数据分析方法与技术应用的角度切入,建立大数据业务价值与技术架构之间的映射关系,深入浅出,从大数据由来、挖掘、应用、技术、安全等不同的角度为读者展示了一个较为全面的完整的大数据。针对不同的业务需求介绍大数据技术,研究大数据挖掘方法和实践案例,介绍大数据可视化工具。

《数据结构—基于C语言的描述》彭波主编 TP311.12-43/190 5分

本书系统地介绍数据结构基础理论知识和算法设计,整本书是教学类用书,组织编排上以“先理论、后应用、理论与应用相结合”,从基本语法出发,围绕数据类型的角度讨论数据结构及其应用,并且在每章后给出练习习题,适合初学者进行基本代码的学习。

《大数据背景下粗糙集约简算法应用研究》李旭、胡兵编著 TP311.13/1048 3分

拿上这本书是因为对名字中的概念都没听说过所以拿起来看一看。简单来说就是一本对数据多属性化简到少一点的属性的介绍的书。从决策表的介绍到建立带权决策表模型到提出约简算法,本书内容不多,读下来就像是读完一篇论文一样,可以一看。

《数据集隐私保护技术研究》张晓琳、王永平编著 TP311.13/1013 5分

本书主要研究数据集隐私保护技术,针对不同类型的数据集(k-匿名、动态数据集、分类挖掘、社会网络等),作者提出相应的隐私保护算法,条理清楚结构简单,在每一个小章节都是围绕一种数据类型,提出隐私保护解决算法,做出实验测试和结果分析,有头有尾有说服力。

《数据建模方法与案例》潘克家、凌巍炜、任政勇、郑洲顺编著 TP311.13/1051 5分

本书是我最推荐的一本书,以数据建模起,从实践出发将丰富的数据建模理论方法与软件实现过程结合起来,介绍数据建模概述,对数据建模的常用软件MATLAB和SPSS进行入门介绍,帮助新手快速上手进行实践。同时,本书注重理论与实践相结合,不仅有详细的数据建模理论方法,而且以将一些数据建模问题以案例论文的形式进行展示,符合读者学习过程,使读者了解数据建模的基本原理,快速掌握数据处理软件的应用和数据处理的技术方法,有较强的实用性价值。

周尚民

《套路!机器学习北美数据科学家的私房课》-林荟,5 分。

这本书的作者林荟 从爱荷华州立大学统计学院硕博毕业,2013 至今任美国杜邦公司商业数据科学 家,因此本书的风格更贴近实际场景。

本书先是介绍了成为一名数据科学家需要掌握的技能以及数据科学可以解决什么问题;

然后详细介绍了与数据相关的必要技术、包括数据收集、数据分析、数据预处理、数据操作、数据整合等;

然后介绍了特征工程,包括特征构建、特征提取、特征选择;

最后详细介绍了线性回归、逻辑回归、树模型、神经网络等与大数据相关模型的相关技术;

另外本书也单独有一章用于讨论模型的评估度量。

本书倡导的是一种循序渐进的启发教学路径,着重在于数据科学的实际应用,让读者能够重复书中的结果。为了平衡理论和应用,书中包括了一些选学小节,用来介绍更多的模型数理背景,抽丝剥茧地介绍技术内核,帮助大家知其然,同时知其所以然。

不过虽然这本书在简介中说本书的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,但是我觉得这本书的内容其实就是偏基础的从数据到建模再到优化评估的全流程,同时没有太多晦涩难懂的数学公式,也挺适合一些没有机器学习、深度学习基础的学生用于打基础,值得一看。


Index Previous Next