全链路压测在大搜车的探索与实践_大前端_杨光跃_InfoQ精选文章

全链路压测在大搜车的探索与实践

如果把双 11 定义为电商公司一年一度的大考，那么全链路压测就是大考之前的一次次模拟考试，帮助要上战场的系统查缺补漏以及进行容量验证和规划。

背景

微服务拆分的背景下，一个简单地请求可能涉及到十几个下游服务，从 CDN 到接入层、前端应用、后端服务、缓存、存储、中间件，哪怕一个环节出现一点误差，误差在上下游经过几层累积后会造成什么影响谁都无法确定，也许是调用延迟，也许是请求失败，用户的体验自然就无法保证。

所以我们需要建立起一套验证机制，来验证我们各个环节的都是符合我们预期的。验证的最佳方法就是让事件提前发生，如果我们的系统能够提前经历几次“双 11”，容量的不确定性问题也就解决了。全链路压测的诞生解决了容量的确定性问题！

核心要素

采集线上的真实流量作为压测数据：

省去巨大的人工成本：传统压测模式下，压测数据的准备一直是老大难的问题。双 11 可能涉及几十个系统，每个系统都有几十上百的接口。如果所有接口都要压测，准备数据需要巨大的人工成本。如果只压测核心接口，其它接口的隐患可能就无法发现。
解决数据多样性不足：准备的压测数据往往跟线上真实的流量模型存在差异，很可能会过多的命中 cache 或者数据库缓存。
数据转换：敏感数据脱敏，不符合的数据改造
直接在线上的真实环境进行双 11 模拟

新搭建可对比线上环境的压测环境，成本太大；
测试环境或预发环境压测结果没有说服力，参考价值不大
识别压测流量和真实流量，不产生脏数据，并且不需要业务方改造适配（涉及的系统多且风险较大）

压测流量打上标识，通过 trace（链路追踪中间件）向下游系统传递。
压测流量触发的数据库操作都路由到影子库，不对线上数据库产生影响
第三方系统的 mock
有些第三方系统按照调用次数收费
监控
系统 qps,耗时
硬件监控（cpu,内存）等

系统架构

如下图所示，全链路压测分为基础设施和管理端两大部分。

基础设施

基础设施采用了 Java 动态字节码技术，运行在 jvm 层，已经覆盖了公司 90%以上的应用。

TraceAgent 负责记录链路调用，打印日志到磁盘上。每台机器上都部署了我们的链路日志收集程序，然后把它们存储到 ES 等后端存储中。全链路压测的数据就是通过这些日志转换而成，同时，基于日志的聚合分析，也形成了我们的监控大盘。

PTS-Agent 主要负责影子库，mock 等逻辑实现。所有的压测流量都打上了压测标识，而且通过 trace 传递，即使跨系统调用压测标识也不会丢失。PTS-Agent 在发现是压测流量，并且配置了影子库，就会动态修改数据库连接，把它们路由到影子库，而正常流量不会受到任何影响，真正实现了业务无感知。mock 等功能也是判断是否是压测流量，是否配置了 mock，执行流程如下图：

管理端

压测执行流程主要分为三步：准备压测数据 ===> 配置压测计划 ===> 执行压测任务

管理端模块也是按照上面三个步骤划分的

数据集管理：我们提供了灵活的 sql，可以让用户自由的选择采集，哪些应用，哪些接口，多长时间段的线上数据。
压测计划管理：为每个压测场景配置影子库，接口 mock 等
压测执行：配置施压机，线程数等，以及开始和停止压测任务实践案例

数据采集：指定时间范围以及通过 sql 语法指定采集的应用以及接口

2. 配置压测计划

接口 mock 配置：我们基于链路数据，把需要压测的所有接口的下游调用链路都分析出来，用户可以根据我们的链路图，对任何下游接口实现 mock。

影子库、mq 配置：

数据转换功能：如果采集到的谁要做进一步的处理才能使用，则使用数据转换功能，支持 js 语法；

3. 压测执行

3.1 任务的启动与停止，线程数配置

3.2 执行过程的监控，包括 QPS、响应时间、相应状态码、cpu 和内存资源情况，

系统瓶颈定位工具

压测只是手段，我们的目的还是希望发现系统中的瓶颈点。为此，我们也提供了应用拓扑、链路追踪协助大家排查问题，同时也推荐开源工具async-profiler分析方法耗时情况。

应用拓扑：全局视角，快速定位下游系统瓶颈点

该系统可以展示当前系统所有的下游系统，在哪个节点耗时最长一目了然

链路追踪：记录所有调用，方便分析所有慢请求

未来规划

未来，我们会朝着高可用平台发展，不仅会满足大家压测种种需求，同时也将为故障模拟，故障演练等场景赋能，帮助大家提供故障应对能力，敬请期待。

评论

发布

暂无评论

BeeWorks：为企业打造专网部署即时通讯解决方案

即时通讯 IM 私有化部署局域网视频软件

镜舟科技荣膺“北京市用户满意企业”认证，以用户为中心驱动高质量发展

数据技术创新 LakeHouse StarRocks 镜舟科技

Flink + Doris 实时湖仓解决方案

大数据 flink 实时计算 Doris

淘宝商品详情 API 接口全解析：从接入到实战

淘宝商品详情接口淘宝API 淘宝商品数据采集

远程控制软件套路深？4款对比测评，只有贝锐向日葵最靠谱！

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）

数据湖 Doris LakeHouse trino 湖仓一体

3FS系列（二）：3FS元数据性能深度拆解：那些在技术文档中找不到的实现细节

九章云极DataCanvas

人工智能 DeepSeek 3FS

智能网络感知，打造极致流畅的鸿蒙版中国移动云盘图文体验

RabbitMQ集群部署（二）——普通集群模式部署

天翼云开发者社区

四款远控软件对比：哪一款功能最全？哪一款延迟最低？

DeepSeek-V3 0324炸场升级：代码能力碾压GPT-4.5，测试开发效率革命开启！

2025年企业组网新趋势：SASE与SD-WAN发展解析

SD-WAN 组网企业组网企业网络 SD-WAN服务商

BeeWorks内网聊天软件：提升团队效率的智能沟通平台

即时通讯 IM 企业即时通讯平台私有化部署局域网视频软件

2025浙江安博会

安博会浙江安博会杭州安博会

慈善组织购买堡垒机需要考虑哪些因素？买哪家好？

信息安全堡垒机慈善组织

企业信创项目建设实践

#信创实践经验

关于 K8s 的一些基础概念整理-补充

不在线第一只蜗牛

Docker Kubernetes

RabbitMQ集群部署（一）——单机模式部署

天翼云开发者社区

从历史数据到实时决策：AI如何提升大数据实时分析能力？

天津汇柏科技有限公司

大数据 AI 人工智能

让 DeepSeek 更懂你的业务，基于向量数据库 VectorDB 搭建问答应用

数据库向量数据库

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

阿里云大数据AI技术

大数据搜索 Milvus LLM MCP

《深入理解 eBPF 与可观测性》正式上架，龙蜥多位资深专家倾力打造

OpenAnolis小助手

Linux 操作系统龙蜥社区 eBPF 技术

Java 开发高手必备：AI 工具如何帮你快速生成 Spring Boot 配置？

飞算JavaAI开发助手

外贸人必看！三步用云手机轻松收集产品反馈

云手机海外云手机舆情监控舆情监测海外舆情监控

【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B

阿里云大数据AI技术

人工智能模型部署 Qwen PAI DeepSeek

RabbitMQ集群部署（三）——镜像集群模式部署及常见问题

天翼云开发者社区

云学堂更名绚星智慧科技：发布AI新战略领航企业智能生产力时代

秒杀系统开发指南：用 AI 工具生成高并发代码的 5 个要点

飞算JavaAI开发助手

Spring Boot 集成实战：AI 工具如何自动生成完整微服务模块

飞算JavaAI开发助手

“清华”天才们联合创立，这家具身智能领域创企完成2亿元天使轮融资！

机器人头条

科技大模型人形机器人具身智能

HarmonyOS @Reusable 装饰器自学指南：高性能组件复用实战指南