免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

Java 火焰图在 Netflix 的实践

  • 2015-08-04
  • 本文字数:1672 字

    阅读完需:约 5 分钟

为了分析不同软件或软件的不同版本使用 CPU 的情况,相关设计人员通常需要进行函数的堆栈性能分析。相比于定期采样获得数据的方式,利用定时中断来收集程序运行时的 PC 寄存器值、函数地址以及整个堆栈轨迹更加高效。目前, OProfile gprof SystemTap 等工具都是采用该方法,给出详细的 CPU 使用情况报告。然而,这些工具在处理复杂的统计数据时,给出的报告往往过于繁杂、不够直观、不能直接反应分析员所需要的数据。为此,Brendan Gregg 开发了专门把采样到的堆栈轨迹(Stack Trace)转化为直观图片显示的工具—— Flame Graph(火焰图)。但是,由于分析器与 JDK 环境等原因,Java 程序的混合模式火焰图之前无法生成。近期,Brendan Gregg 和 Martin Spier 发现了一种解决该问题的方法,在 Netflix 内部进行了实践,并贡献了一篇非常详尽的实践性文章。为Java 程序的性能分析提供了极大便利。接下来,本文就从该问题出现的原因开始,简要介绍其解决该问题的思路和方法。

首先,本文对火焰图的概念进行简要介绍。火焰图既是一个开源工具,也是一种类型的图片。作为一个二维图片,火焰图的X 轴代表采样总量,而Y 轴代表栈深度。每个框就代表了一个栈里的函数,其宽度代表了所占用的CPU 总时间。因此,比较宽的框就表示该函数运行时间较慢或被调用次数较多,从而占用的CPU 时间多。通过火焰图,相关设计或分析人员就可以轻松观察到各个应用占用CPU 的情况。

但是,火焰图本身并不具备性能检测的能力。它需要其他性能分析工具的协助。在Java 环境中,一共有两种类型的堆栈轨迹采样分析器——系统分析器(System Profiler)和JVM 分析器(JVM Profiler)。前者(如Linux 的 Perf Events )可以分析系统代码路径,包括 libjvm internal、GC 和内核,但并不能分析 Java 方法;后者(如 HPROF 、轻量级 Java 分析器和其他商业分析器)可以显示 Java 方法,但不能显示系统代码路径。由此可见,这两种方法都不能同时支持系统代码路径和 Java 方法的堆栈轨迹。而分别描述二者的火焰图又不能很好的满足需求。因此,Brendan 等人一直关注如何解决该问题。

在之前的一次讨论中,Brendan 曾经对系统分析器不能显示Java 方法的原因进行分析。这包括两个方面——JVM 编译方法时比较快,没有为系统分析器暴露一个符号表;JVM 采用x86 上的frame pointer 作为一个通用寄存器,破坏了传统的stack walking。那么,解决之前的问题,就需要分别从这两个方面入手。对于第一个方面,Java 和Linux 系统的分析器进行了双方面的努力。首先,Java 开始支持利用开源的JVMTI 代理 perf-map-agent 来创建 perf-PID.map 文本文件。该文件列举了 16 进制的符号地址、大小以及符号名称。然后,从 2009 年以后,Linux 中的 Perf_events 工具添加了对 JIT 符号的支持。该工具会检查 /tmp/perf-PID.map 文件,从而完成对来自语言虚拟机的符号进行检查。对于第二个方面,JVM 添加了一个新的选项 -XX:+PreserveFramePointer。经过 Zoltán、Oracle 和其他工程师的努力,最新的 JDK9 JDK8 已经增加了该选项,从而保存了 stack walking。

在两方面的问题都解决之后,用户只要经过安装 Perf Events、新版 JDK、perf-map-agent 以及 FlameGraph 等软件和配置 Java(尤其是打开 -XX:+PreserveFramePointer 选项)的步骤后,就可以产生系统级的火焰图了。为了让产生火焰图的流程自动化,Brendan 等人已经开始基于开源的实例化分析工具 Vector 进行流程的建模。

未来,Breden 等人还计划进行很多工作。其一是通过自动化收集不同日期的差分火焰图进行规则分析。这有助于迅速理解软件变化所导致的 CPU 使用率变化。此外,他们还试图利用 Perf Events 进行磁盘 IO、网络、调度以及内存分配等用户和内核级的事件记录和分析。最后,对火焰图和 Vector 进行实时更新等改进也是未来考虑增加的功能。


感谢徐川对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-04 06:518488
用户头像

发布了 268 篇内容, 共 121.8 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

AI 辅助编程的效果如何衡量?

阿里云云效

阿里云 云原生 通义灵码

我的新书出版啦!和大家聊聊写书的酸甜苦辣

码哥字节

数据库 nosql 写作 redis 精讲 程序员 java

鸿蒙多环境配置(一)

龙儿筝

鸿蒙

鸿蒙多环境配置(二)

龙儿筝

鸿蒙

谁是下一个超级个体?

阿里云云效

阿里云 云原生 通义灵码

应对压力:确保决策的一致性与公正性

爱吃小舅的鱼

策略 决策的一致性与公正性

腾讯云的相关DDoS封堵问题概览

网络安全服务

腾讯云 服务器 DDoS 腾讯云服务器 DDoS 攻击

ETLCloud遇上MongoDB:灵活数据流,轻松管理

RestCloud

数据库 mongodb 数据处理 ETL 数据集成

大型复杂项目管理中传统与敏捷的有效结合

爱吃小舅的鱼

项目管理 敏捷开发

中昊芯英加入信通院算力产业发展方阵,共推高性能AI算力发展

科技热闻

决策权分配的最佳实践指南

爱吃小舅的鱼

管理 决策权分配

技术与市场预测不确定性:企业应对指南

爱吃小舅的鱼

技术与市场预测不确定性 应对策略

《使用Gin框架构建分布式应用》阅读笔记:p272-p306

codists

Go golang gin 编程人 codists

一键制作ppt工具哪个好?5款好用的AI软件盘点!

职场工具箱

效率工具 PPT AIGC AI 人工智能 AI生成PPT

鸿蒙Navigation处理启动页跳转到首页问题

龙儿筝

鸿蒙

从方言对话这枚“落子”,看AI手机“棋局”的尴尬赛点

脑极体

AI

正式开源:从 Greenplum 到 Cloudberry 迁移工具 cbcopy 发布

酷克数据HashData

greenplum 数据迁移

运用通义灵码有效管理遗留代码:提升代码质量与可维护性

阿里云云效

阿里云 云原生 通义灵码

Comprehensive Analysis of QCN6274, QCN6224, and QCN6024 Chipsets - Performance, Use Cases, and Emerging Trends

wifi6-yiyi

WiFi7

AI 辅助编程的效果如何衡量?

阿里巴巴云原生

阿里云 AI 云原生

谁是下一个超级个体?

阿里巴巴云原生

阿里云 云原生 通义灵码

数智时代:以低代码开发为催化剂 加速中国制造转型升级

EquatorCoco

运用通义灵码有效管理遗留代码:提升代码质量与可维护性

阿里巴巴云原生

阿里云 云原生 通义灵码

鸿蒙生态加速落地湖北:多家政企单位及高校启动内部应用鸿蒙化,近百款原生鸿蒙应用上架

最新动态

利用免费的Geo Location API进行实时用户分析

幂简集成

API 免费API

Paimon x StarRocks 助力喜马拉雅构建实时湖仓

StarRocks

鸿蒙封装日志库并支持跳转显示行号

龙儿筝

鸿蒙

测试外包服务 | 从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

测吧(北京)科技有限公司

测试

管理上层期望:与干系人保持同步

爱吃小舅的鱼

管理上层期望

豆包MarsCode 上线新能力 #Workspace:快速上手代码仓库、轻松分析项目结构

豆包MarsCode

程序员 AI 开发 代码

第72期 | GPTSecurity周报

云起无垠

Java火焰图在Netflix的实践_Java_张天雷_InfoQ精选文章