软件工程
以工程化的思维看待软件研发,关注与敏捷、提效、安全等要素相关的创新实践,关注最新研发理念、工具的布道与落地
- 全部
- 安全
- AIOps
- BizDevOps
- DevOps & 平台工程
- FinOps
- 研发效能
- 可观测
- 其他

谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI
Agent Trace:Cursor 提出 AI 代码归属的开放规范。

Cookie 真的要被淘汰了?IEEE 推出 MyTerms,新隐私规则开始反杀互联网
点了 20 年「我已阅读并同意」,这次可能真要结束了。

百度端侧大模型安全建设实践:在算力与保障之间找到平衡
本文分享了 AI 从云端向终端延伸的背景与驱动力以及端侧小模型的兴起与生态布局,以及在低算力情况下最大限度的满足端侧内容审核的效果。通过分享百度在端侧大模型安全建设的思路,做到离线场景低算力情况下依旧可以支持多模安全审核,帮助听众开拓了一些新思路。

容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因
在云原生场景中,为了最大化资源利用率,越来越多的集群采用资源超卖策略和混合部署方式。然而,这种模式在提升集群效率的同时,也显著增加了宿主机与容器化应用之间的资源竞争风险。

100 毫秒不是优化,是信仰:顶级工程团队如何“设计”极速 API
低延迟不是优化技巧,而是系统性设计结果。

为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案
Railway 发布可观测性实践指南,系统阐述日志、指标、追踪与告警的协同价值,帮助工程团队更高效地定位和诊断生产系统故障。

DoorDash 通过多臂老虎机增强 A/B 测试
DoorDash 工程师 Caixia Huang 和 Alex Weinstein 说,尽管实验至关重要,但传统 A/B 测试可能过于缓慢且成本高昂。为了消除这些限制,他们采用了“多臂老虎机”(MAB)方法来优化实验。

Ramp 构建的内部编码代理支撑着 30% 的工程拉取请求
Ramp 分享了 Inspect 的架构。在公司前后端存储库的合并拉取请求中,这个内部编码代理的采用率迅速达到了约 30%。

半年处理 1 亿笔支付!x402 V2 升级,让支付更简单
开放支付标准 x402 迎来重大升级,能力边界全面扩展。

DoorDash 运用 AI 提升聊天与通话安全,将安全事件减少 50%
DoorDash 构建并部署了一个 AI 驱动的安全系统 SafeChat,用于审核配送员与顾客在应用内聊天、发送图片及进行语音通话时的互动内容

面向 SRE 的人本 AI:多智能体事件响应
根据 OpsWorker(代理 AI 同事即服务)的博文,企业的站点可靠性工程实践正在悄然发生转变。团队不再是简单地将故障告警发送给一台机器,而是设计出能与值班工程师协同工作的多智能体 AI 系统。

AI Agent 是长期运行的“风险系统”,如果你还只在防 Prompt Injection,说明已经落后一代了
CyberArk 如何通过指令检测与历史感知校验机制保护 AI Agent。

在美国法律管辖权受到质疑之际,亚马逊云科技推出了欧洲主权云服务
亚马逊云科技(AWS)已将其欧洲主权云服务(European Sovereign Cloud)推向全面可用,该服务在物理和逻辑上分离的基础设施上投资了 78 亿欧元。该服务现已在德国勃兰登堡州提供,旨在应对欧洲的监管要求以及对美国访问数据的日益增长的地缘政治担忧。尽管 AWS 强调,该云服务将完全由欧盟居民在新的德国母公司结构下运营,但关于这种分离是否真的能抵御美国政府的数据请求,仍存在重大疑问。

揭秘 Uber 跨区域数据湖与灾难恢复机制:350PB 数据、数百万事件、单一系统
Uber 构建了 HiveSync,这是一个分片式批量复制系统,能够使 Hive 和 HDFS 数据在多个区域之间保持同步,它每天处理数百万个 Hive 事件。

解决移动分析碎片化困局:Uber 的平台引领之道
为了标准化 iOS 和 Android 平台的事件工具,Uber 工程团队重新设计了其移动分析架构,解决了所有权分散、语义不一致和跨平台数据不可靠的问题。

QCon 北京 2026 启动|Agentic AI 时代的软件工程重塑
欢迎你带着真实问题与实践加入其中,与更多同行一起,把这场正在发生的软件工程重塑讲清楚、做扎实。

Cloudflare 通过左移安全实践扩展基础设施即代码
Cloudflare 通过实施基础设施即代码和自动化策略执行,消除了数百个生产账户中的手动配置错误,每天处理大约 30 个合并请求,并在部署前而不是事件发生后捕捉安全违规。

测试人员可以做些什么来确保软件安全
Sara Martinez 在 Online TestConf 上的演讲“确保软件安全”中说到,一个安全的软件开发生命周期意味着将安全融入到计划、设计、构建、测试和维护各个阶段,而不是在最后阶段才匆忙添加。

米其林以务实路线迈向 AIOps,并无宏大愿景
米其林中国运维集团写了一篇关于他们如何实施 AIOps 平台的文章。文章详细描述了在最终与全球 IT 治理对齐的过程中克服的失误和组织阻力,并解释了企业如何能够超越供应商的推销,实现实际部署。

谷歌 Metrax 为 JAX 引入了预定义的模型评估指标
Metrax 是一个 JAX 库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性
亚马逊云科技(AWS)最近宣布了 AWS DevOps Agent 的公开预览版,这是一种新的“前沿智能体”,旨在帮助组织更快地应对生产故障,识别根本原因,并主动加强系统可靠性。该服务被定位为一个自治的、随时待命的值班工程师,它与现有的可观测性、部署和工单工具集成,以自动化许多传统上由 DevOps 团队手动完成的任务。

人才济济的大厂,为何频频产出垃圾代码?
每隔几年,各大科技巨头就会闹出一番动静,被人发现产出极其离谱的垃圾代码。这时候没在大厂待过的同学就要问了:既然这里薪资优厚、人才济济,再加上运营节奏稳健,理应能够从容不迫地扎实完成工作。

InfoQ Dev Summit 慕尼黑站:五个常见的 AI 安全误区被打破
Jarmul 指出,当前的 AI 安全方法过度依赖技术手段,却忽视了根本性风险。

整体工程:有机解决复杂演进系统中的问题
整体工程是有意将这些非技术力量纳入我们的技术决策、设计和策略的做法。

运维大规模反向代理的教训
要想取得成功,就需要在目标硬件上进行分析,客观地监视无聊的细节,保持热门路径精简,相信工具胜过理论。

Cloudflare 被 React 坑了!两周内二次“翻车”:沉睡 15 年的老代码一招 KO 全球互联网,安全升级反酿史诗级宕机
Cloudflare 又双叒宕机了

Groundcover 使用可观察性迁移工具瞄准 Datadog 用户
该公司声称,组织可以完全自动化地迁移指标、仪表板和监控器,无需任何停机时间,也不需要咨询顾问。

25000 美元卖公司内部截图,丢了饭碗还要吃牢饭!大厂百万年薪抢招“内鬼分析师”,围剿下一个“自己人”
全球大厂抢着招“内鬼分析师”?

微软 Copilot 秋季更新:协作与个性化双升级
微软发布 Copilot 秋季更新,带来了一系列新功能,旨在提升生产力、协作体验与个性化服务。

时隔七年,谷歌以 Jetpack Navigation 3 重塑 Android 导航体验
谷歌发布了新的 Jetpack Navigation 3 库,彻底重新设计了 Android 应用中的通知处理。新库提供了完整的返回栈控制,并与 Jetpack Compose 的状态管理实现了无缝集成。








