写点什么

日志监控实践 - 监控 Agent 集成 Lua 引擎实现多维度日志采集

  • 2019-09-11
  • 本文字数:2151 字

    阅读完需:约 7 分钟

日志监控实践 - 监控Agent集成Lua引擎实现多维度日志采集

对于互联网行业来说,最有价值的数据往往蕴含在服务的日志之中。从日志中,我们不仅仅可以获取到服务的使用量、服务效果、问题定位信息等,还可以通过监控系统及时地识别出服务的”健康”状态,规避风险,推动服务优化升级。


在监控系统中,日志处理就是采集服务运行时生成的原始日志,根据用户配置的解析规则,从中提取可用数据,形成监控指标的过程,这个过程一般由监控系统的日志采集 Agent 完成。


通用的日志采集 Agent 一般会提供多种日志解析方法,常用的有分隔符、K:V、正则表达式等。为了适配某些常用的系统或组件(例如:Nginx、Syslog 等),有些日志采集 Agent 还会提供一些预制的日志解析配置,以期达到开箱即用的效果。


百度的业务场景十分复杂,涉及搜索服务、社区服务、金融服务、AI 服务等,这些业务的程序所生产的日志格式存在较大差异,如何统一处理这些不同格式的日志成为一个重要的问题。今天,我们会从百度 Noah 监控平台的角度,讨论如何解决这一问题。

典型日志处理示例

1K:V 日志


如上图所示,这是一个典型的 K:V 形式组成的日志。


我们可以通过简单的分隔符将日志分隔开,并根据 K:V 的式样从日志中提取出 uri、c_time、idc 等监控项。

2 多行日志


这是一个 C++程序的 Stack 信息。需要将多行日志作为一个 Trace 信息进行完整提取,并且将每一行里面的函数名、文件名、行号单独提取,统一推送,用于批量实例的故障定位。


这个例子需要具备两个能力,多行日志处理和单行日志内提取字符串。

3 混合日志


在这个例子中,每行日志混合了服务名、代码位置、用户自定义数据等信息。需要分别用分隔符、K:V 和 JSON 解析的方式进行提取。


针对这些场景,一些开源方案(例如 Logstash,Collectd)通过在配置文件中支持此类语义或插件的方式实现了此类功能。我们参考了这些开源实现,结合百度业务的场景,在监控采集 Agent 上通过日志插件功能实现日志处理需求。


实现插件时,需要重点考虑以下几方面:


  1. 通用性和易用性:需要尽可能满足用户定制化需求, 并且开发简单。

  2. 性能:典型的日志采集场景中,需要每秒处理数 MB 甚至数十 MB 的日志文件,并完成字段切分、正则匹配、数据格式转换等操作,需要处理引擎有较强的性能。

  3. 可用性和安全性:Agent 运行在线上生产服务器上,对稳定和安全有相当高的要求。

Agent 日志插件实现


如何实现定制化的日志解析逻辑很简单。我们封装了 Log 解析类,包含获取单行日志和返回监控项解析结果的接口,供用户自定义日志解析脚本来调用。用户需要在日志解析脚本中实现 Callback 函数,在解析每行日志时,被 Agent 调用。


所有的日志处理逻辑完全在脚本中实现,例如,用户可以在脚本中维护全局 Context,通过 Context 中保存的进度信息,完成多行日志的处理。


这里还封装了通用的日志处理工具库,以 Lua 内置类的形式提供,包含 JSON、Debug 等工具。

可用性和安全

Agent 在所有服务器上运行,可用性和安全性是最重要的考量因素。


可用性方面,主要是避免自定义脚本本身的 Bug 或插件引擎 Bug 导致采集功能异常。除此之外,需要规避资源占用超限导致服务器上其它业务受影响。


对用户代码,需要严格规范资源占用量。执行插件的任务,作为一个单独的进程,使用 Cgroup 和 Ulimit 等机制限制资源占用,同时也作为执行隔离的手段,规避单个脚本或插件引擎的 Bug 影响所有采集任务正常执行。


另外,在任务执行时间上,也由 Agent 加以控制,避免任务超时运行。


安全性方面,自定义日志解析脚本需要配置中心统一托管,避免被篡改。


Lua 本身提供的一些功能也做了屏蔽,例如 io.open/io.popen/os.execute/os.remove 等高危操作接口,避免从脚本调用外部程序,或做出删除系统文件等操作。

增强模式

经过一段时间的线上运行,在某些场景下,日志处理的性能无法满足需求。


对于通用日志采集场景,通过将 Lua 替换成 Luajit,日志解析吞吐量获得约 4 倍的提升,可以覆盖我们几乎所有的通用日志采集场景。替换过程中需要关注兼容问题处理,例如 Regexp 语意和标准的 Lua 并不完全相同,lua_ctx 最大数量限制等等。


特殊的业务需求场景,需要针对性地进行优化。例如,某些业务日志的采集过程中,需要进行 UNIX 时间戳到 RFC 格式的转换、IP 地址到机房信息的转换等操作,在 Lua 脚本中通过查表或进行转换来实现需求的效率非常低。对于这些场景我们使用 C++等语言封装了可以在 Lua 中直接调用的类,有效提升此类操作性能超过一个数量级。这种集成方式也可以用于支持一些定制功能,例如 Protobuf 和 BaiduRPC 变量等信息的采集。


性能方面仍有提升的空间。当前的日志处理是单进程单线程中运行日志处理引擎解决需求,扩展成为多线程,利用并发方式可以有效提升吞吐量。

总结

以上是百度智能运维(Noah)在使用 Lua 实现定制日志采集方面的工程实践经验。工程实现并不复杂,但细节较多,需要严谨的功能设计,编码和充分的测试,保障日志处理过程满足需求、资源合理利用,并提供良好的用户操作接口,逐步积累抽象出更多的通用性插件,降低用户使用成本。


作者介绍:


董涵,百度资深研发工程师,负责百度智能运维(Noah)服务管理和分布式监控架构研发工作,在分布式系统和大规模数据处理、可用性工程方向有广泛的实践经验。


本文转载自公众号 AIOps 智能运维(ID:AI_Ops)。


原文链接:


https://mp.weixin.qq.com/s/yUQYeMYakmKz9pHe9sblwA


2019-09-11 22:361611

评论

发布
暂无评论
发现更多内容

王者荣耀商城异地多活架构设计

Jack

架构实战训练营9期

Getaverse月报 - 11月

Geek_Web3

区块链 Web3 Daily #区块链# did web3

龙磐投资,中国领先生物医药风险投资机构,规模超百亿

联营汇聚

Smart Finance将AIGC引入GameFi,P2E进入人工智能时代

鳄鱼视界

初步了解Istio

穿过生命散发芬芳

istio 12月月更

盘点JDK中基于CAS实现的原子类

JAVA旭阳

Java Java并发

微服务中的鉴权该怎么做?

江南一点雨

SpringCloud Gateway openfei

前端培训学习需要什么条件?

小谷哥

制定数据战略的三大要素和五个步骤!

用友BIP

微服务开发平台 Spring Cloud Blade 部署实践

北京好雨科技有限公司

Kubernetes 微服务 云原生 Spring Cloud

Smart Finance将AIGC引入GameFi,P2E进入人工智能时代

股市老人

学习web前端培训怎么样呢

小谷哥

埃文科技完成数千万A轮融资

郑州埃文科技

网络安全 企业融资 数据服务

FFA 2022 收官总结|活动报告出炉,实时即未来!

Apache Flink

大数据 flink 实时计算

go实现类似spring BeanUtil工具

Z.K

智慧交通的待解谜题,中科视语在首届昇腾AI创新大赛交出金奖答案

脑极体

福利Day | KaiwuDB 邀你相约 DTCC 2022,文末免费抢价值3200元大会门票!

KaiwuDB

数据库

30个编程小技巧,提高代码性能

千锋IT教育

从SPL看开放计算能力的意义

石臻臻的杂货铺

SPL

架构实战营第十期模块一作业

Geek_4db2d5

学习java参加培训哪个比较好呢?

小谷哥

找运营商电商化运营突破口的九个策谋

鲸品堂

12 月 PK 榜

海鑫科金:通过 YMatrix 实现离线在线平台统一,满足公安数据场景的管理分析需求

YMatrix 超融合数据库

超融合数据库 YMatrix 公安数据场景 海鑫科金

go基于泛型的FUNCTIONAL OPTIONS

Z.K

笔记2022-12-06

mklop

学习笔记 构架

web前端培训应该怎么做

小谷哥

大数据培训学习方法有哪些

小谷哥

直播预告丨泛CG元宇宙分会场云桌π—从NVIDIA XR到云渲染,如何构建元宇宙虚拟场景生态闭环

3DCAT实时渲染

CG 渲染 虚拟现实 元宇宙 元宇宙开发

艾瑞《政企数智办公平台行业研究报告》,政企数智办公「百宝书」

融云 RongCloud

办公 数智化

Gin路由添加流程

Z.K

日志监控实践 - 监控Agent集成Lua引擎实现多维度日志采集_文化 & 方法_董涵_InfoQ精选文章