Spark是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终,使用Python详细阐述了 Spark 大数据环境的搭建、Spark RDD 离线数据计算、Spark SQL 离线数据处理、Spark Streaming实时数据计算等一系列常见的大数据处理问题,并在此基础上对Spark的核心概念及技术原理进行了详细分析,最后以两个综合案例分别展示了Spark离线数据处理和实时数据处理的具体应用与部署。本书践行“做中学”的设计理念,内容编排符合学习与认知规律,从简单细小案例入手,辅以大量配图对学习过程中涉及的枯燥数据、抽象概念和复杂原理进行图示化说明,语言浅显易懂,技术体系清晰,逻辑衔接合理。在本书最后两个综合案例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对Spark大数据项目的整体开发流程有一个比较清晰的认识。