编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集(RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打印 RDD 的 elements 与 Key-Value Pairs 一起使用 Transformations(转换) Actions(动作) Shuffle 操作 Background(幕后) 性能影响 RDD Persistence(持久化) 如何选择存储级别 ? 删除数据 共享变量 广播变量 Accumulators(累加器) 部署应用到集群中 从 Java / Scala 启动 Spark jobs 单元测试 快速链接 我们一直在努力 apachecn/AiLearning 为正常使用来必力评论功能请激活JavaScript