云原生
关注云原生理念的发展和落地实践
平台抽象拯救 Reddit: Kubernetes 配置变化不再是难题
三年前,Reddit 的基础设施工程师团队大部分时间都在忙于救火。本文谈的就是他们如何通过开发一个平台抽象来简化运维并重新掌控局面的故事。
云原生计算基金会宣布 CubeFS 毕业
云原生计算基金会(CNCF)正式对外官宣 CubeFS 成为其毕业项目。毕业,标志了 CubeFS 的技术生态受到全球业界广泛认可,云原生存储技术迈入了成熟新阶段。
Gitpod Flex,替代 Kubernetes 的云开发环境
Gitpod 运营 150 万用户开发环境后决定放弃 Kubernetes。因开发环境有状态性、资源使用不可预测等特点,Kubernetes 在资源管理、存储、网络等方面带来诸多挑战。Gitpod 虽尝试微型虚拟机技术,但最终开发出 Gitpod Flex,继承 Kubernetes 优势并简化架构,提升安全与灵活性,强调系统选择要综合考量。
对 OpenAI 故障的思考|如何让 Kubernetes 更稳定?
Kubernetes 已成为云原生时代的重要基础设施,管理庞大复杂的基础设施从来都不是一件容易的事情。
大模型定价进入“厘时代”,AI 应用爆发开启倒计时
继 2024 年 5 月豆包主力模型将推理输入价格降至“厘时代”之后,视觉理解模型也正式进入了“厘时代”。
Kubernetes 1.32 发布,提供动态资源分配和 Windows 节点的优雅关机
2025 年 1 月 4 日消息,云原生计算基金会发布 Kubernetes 1.32 版(代号 Penelope)。该版本有诸多更新,增强动态资源分配能力,新增核心组件状态端点、异步抢占等 alpha 特性,为 Windows 节点添加优雅关机功能,还有存储管理等稳定功能,部分特性进入 beta 阶段。另有 API 移除。共 44 项增强,后续有相关研讨。
OpenAI 史上最长宕机:自研 K8s 成“拦路虎”,导致数小时无法修复
OpenAI 提到,在客户感受到影响的“几分钟”内,公司就检测到了该问题;但由于必须绕过不堪重负的 Kubernetes 服务器,因此无法快速实施修复。
是否应在 Kubernetes 上运行 Redis?快手这样做!
针对无状态服务,业界已拥有成熟解决方案,但对于有状态服务(如数据库、Redis)是否适合容器化与 K8s 托管,仍存在争议。本文将基于快手在 Redis 云原生化实践中的经验,探讨有关有状态服务的云原生化思考及应对方案。
一场泰森拳王比赛就能让上云鼻祖宕机,员工:周末不想加班修 bug
周末,备受瞩目的保罗对阵泰森比赛期间,Netflix 平台却意外遭遇大规模瘫痪。
Linux 内核将支持开箱即用的实时调度特性
Linux 6.12 内核将支持实时调度特性,通过启用 PREEMPT_RT 补丁,提高确定性时间保证,适用于航空电子、机器人等领域。
Clobotics 计算机视觉场景存储实践:多云架构、 POSIX 全兼容、低运维的统一存储
改造存储层的过程中, Clobotics 对 Ceph、SeaweedFS 和 JuiceFS 等文件系统方案进行了比较,最终选择使用 JuiceFS。
Client-Go 中的特性开关:增强控制并简化 Kubernetes 中的特性采用
Kubernetes 已经将特性 Gates 集成到了 client-go 库中,为开发人员和管理员提供了在 Kubernetes 环境中对特性采用的更细粒度的控制。
贝联珠贯完成 Pre-A 轮数千万元融资,发力 AI 基础软件
贝联珠贯创始人兼 CEO 毕玄表示,随着这轮融资的完成,公司一方面将加速推进现有两款产品的规模化的商业化...
37signals“下云”计划完美收官:成本节约比当初估算的还要多,5 年狂省千万美元
尽管云计算有诸多优势,但对公司而言,其弊端也过于明显。
移除了内置的云提供商代码后,Kubernetes 1.31 现在成为了“真正中立的供应商平台”
据该团队称,迁移工作取得了显著成果,“删除了大约 150 万行代码,并将核心组件的二进制大小减少了约 40%。”
初创公司的 FinOps 之路:两年内云成本节省 80%,无需专职团队!
和大公司不同的地方,没有投入一个专门团队做所谓“降本增效”战役,也未高价购入 FinOps 产品或者引入专业的成本优化供应商,完全以内部研发团队兴趣小组的方式,自建共享迭代优化,且在 FinOps 过程中以零打搅研发效率为目标。
从开源 CubeFS 看云原生存储技术的演进与创新
开源 CubeFS:在 AI 浪潮中,如何打造可靠的存储底座
火山引擎多云容灾架构下的流量调度实践
本文将基于火山引擎的技术实践和客户服务经验,介绍如何在多云环境中实现高效、精准的流量调度,保障业务持续稳定。
兼具灵活与稳定,企业上云的容器化进阶之道丨「腾云之路:领航企业的技术跃迁」第二期
在数字化升级的浪潮中,无论是传统企业还是数字原生企业,都面临着前所未有的挑战与机遇。容器化技术,作为云原生实践的关键,已经成为企业保障业务稳定性和技术灵活性的重要路径。
飞行中换引擎:长城汽车 toC 业务中台同城双活架构升级
单一云服务对国内主流汽车企业带来了高度依赖与绑定的风险。为了提高汽车企业的业务可靠性,多云已经成为汽车企业的一大上云趋势。
「腾云之路」第二期丨兼具灵活与稳定,企业上云的容器化进阶之道
「腾云之路」第二期,将聚焦「兼具灵活与稳定,企业上云的容器化进阶之道」,深度对话趣丸科技、小鹅通,探讨他们在容器化转型过程中遇到的挑战、采取的解决策略以及最终取得的成效等,希望能给行业带来启发。
万字长文分享腾讯云原生微服务治理实践及企业落地建议
本次分享以腾讯微服务架构建设为主,介绍了 TSF、北极星(PolarisMesh)和微服务治理方面的实践经验。
OpenMetrics 归档并合并到 Prometheus
上个月,OpenMetrics 项目正式归档并合并到了 Prometheus 中。这就是这个开源项目的全部旅程,在开始的地方结束。
机房锂电池火灾致阿里等多家大厂服务瘫痪,超 30 小时灭火仍未结束:持续浇水,数据中心成“危楼”!?
此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司,造成了严重服务中断。
“僵尸”实例无处不在
这种情况随处可见,人们不愿意关闭集群,以防万一日后需要,以防万一工作需要。
数据库顶会 VLDB 2024 论文解读|ResLake: 字节跳动多机房资源统一管理系统解析
ResLake 上线后,作业平均 JCT(最小化用户作业完成时间) 时间降低了 20%,机房间资源利用率均衡性提升了 53%,跨机房流量降低了 50%,存储成本降低了 46%。
别让 Kubernetes 上的 Apache Kafka 让你丢掉工作
为什么需要 Kubernetes Native Kafka
改善 Kubernetes 日志以增强可观测性
在本文中,我们将会探讨在 Kubernetes 中管理日志的各种挑战、策略和最佳实践,帮助你在 Kubernetes 环境中实现无缝的日志管理。
迈进 GenAI 时代,亚马逊云科技的“魔法”是什么
云计算技术不仅颠覆了科技界,也深刻地改变了我们生活和工作的方式。
三年节省 4419 万元,一场 IT 降本增效的沙盘演练
IT 支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让 IT 降本增效变得更加迫切。