发布了 25 篇内容
共 50280字, 被阅读 267次
获得了 3 次赞同
获得了 0次喜欢, 获得了 3 次收藏
参与了 5 次互动
互动包含发布评论、点赞评论、参与投票等
Spark 内存管理与调优
Spark 是基于内存的大数据计算引擎,因此,在编写 Spark 程序或者提交 Spark 任务的时候,要特别注意内存方面的优化和调优。Spark 官方也提供了很多配置参数用来进行内存或 CPU 的资源使用,但是为什么我们要进行这些参数的配置,这些参数是怎么影响到任务执行的,本
Spark 任务等待与运行策略
前面我们提到了 Spark 的资源分配策略,资源配置有静态和动态两种模式,不同模式在任务提交后会有不同的内存占用行为,但是由于队列资源是有限的,因此会出现任务因为资源不够导致等待的情况。本节来详细分析一下任务提交后在的等待与运行影响因素。
带你厘清事务一致性(下篇)
在上篇和中篇中,无论是单机事务的一致性,还是分布式事务的一致性,可以发现都是针对数据库的事务而言的,说到了分布式、一致性话题,我们再继续讨论一个概念 -- 分布式系统的一致性。分布式系统的一致性是一个更加多元和复杂的场景,单纯的 2PC 或者 3PC 协议无法
Spark 运行状态监控与优化
当我们调试 spark 程序或者排查任务运行状态的时候,除了看 spark 提供的原生日志以外,spark 还为我们提供了很好的监控工具 Monitor,具体的参数详情可以参考 Monitoring and Instrumentation。我们本章通过讲解一个 spark 进行资源优化和并发调整的例子来演示如何用
GraphX 图计算组件最短路算法实战
Spark 除了批处理和流处理,还提供了 GraphX 组件提供图计算。近些年,图计算越来越受到数据分析人员的青睐。图计算目前广泛应用于公安系统和银行金融领域。通过社交网络分析,可以打击犯罪团伙,金融欺诈、信用卡盗刷等。通过人与人之间的关联关系推断,还可以
Spark 的动态资源分配
在进行 Spark 任务提交的时候,我们知道 Spark 提供了诸如 num-executor、executor-memory 等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark 任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪
Spark 数据倾斜解决方案实战(三)
上两期,我们分别讲了通过提高并行度和自定义分区策略来解决数据倾斜的方法,同时我们也讲到了他们的共同缺点:针对于不同 key 倾斜到同一个节点到场景。那如果是同样的 key 太大怎么办呢?如何将同一个 key 分配到不同的节点呢?答案就是通过对 key 增加前后缀的方式