spark性能

本页是关于频道"spark性能"的所有博文，按照时间倒序展现。实时更新。

总数 7 第 1/1 页

Spark SQL性能提升17.7倍是如何实现的

砍柴网 • 4年前

摘要:在互联网运营商等大规模、超大规模用户中,Spark是最受欢迎的大数据系统,Spark对于内存依赖性很强,所以当负载提高时,硬件平台的内存挑战就会十分明显,浪潮为国内最大的语音识别服务提供商引入了Intel傲腾内存,经过整体优化测试,整体性能提高了17.7倍。挑战:内存规模限制

Spark Connected为AR/VR发布高性能线充电解决方案The Griffin

砍柴网 • 4年前

无线供能解决方案商Spark Connected日前发布了专有的高性能无线充电解决方案：专门面向 VR /AR的The Griffin。从娱乐到教育，虚拟现实和增强现实正开始逐渐走向主流应用。The Griffin由无线电源发射器和配套接收器组成，这个完整的系统可以集成到终端产品之中，

SparkRDMA：使用RDMA技术提升Spark的Shuffle性能

36大数据 • 6年前

Spark Shuffle 基础在 MapReduce 框架中，Shuffle 是连接 Map 和 Reduce 之间的桥梁，Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节；而 Reduce 和 Map 过程通常不在一台节点，这意味着 Shuffle 阶段通常需要跨网络以及一些磁盘的读写操作

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

36大数据 • 7年前

摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数

spark 应用程序性能优化

36大数据 • 7年前

写在前面本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有必要的细节就不会记录了，而且文中有时候会出现英文原版文档，只要不影响理解，都不翻译了。若想深入了解，最

Spark性能优化指南——高级篇

36大数据 • 8年前

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据

Spark性能优化指南——基础篇

36大数据 • 8年前

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内)，最初