本书共12章,第1章概述预测分析的发展历史及在各行各业中的应用;第2章讨论两种重要分析方法:CRISP-DM和SEMMA;第3章介绍数据输入和数据探索的各种方法;第4章和第5章分别详细讨论四种核心预测算法;第6章介绍生存分析技术并展示如何使用生存分析来解释和预测客户流失;第7章介绍关联规则和购物篮分析的概念及其应用;第8章介绍时间序列分析;第9章介绍SparkR;第10章展示如何用SparkR和Spark SQL执行一些探索性数据分析;第11章介绍如何使用Spark实现逻辑回归和聚类;第12章讲解如何使用Stop和Frisk数据集在Spark中运行决策树模型。