在 5 月 26 日,QCon全球开发者大会(广州站)顺利落地,在现场,InfoQ 特别策划了五场闭门会,主题分别为《企业在 LLM、AIGC 浪潮下的研发探索》《DevOps vs 平台工程,必要性和 ROI 探讨》《破解成本优化后的稳定性问题》《业务出海之架构、合规、运营》《金融行业数据治理经验分享》,本文为《破解成本优化后的稳定性问题》研讨纪要整理~
参会嘉宾
主持人:Yolanda InfoQ 极客传媒总经理
刘亚丹,趣丸保障部负责人
王兴刚,虎牙基础架构总监
姚创沐,腾讯后台开发组长
张靖,B 站高级技术总监
许文强,腾讯云 /高级开发工程师
冯江,小红书 iOS 技术专家
郭凤钊(已晨) 菜鸟网络 /高级技术专家
王远航 神州泰岳/事业部总经理
汤海涛 麦当劳中国 /数字化副总裁
研讨话题 &精彩观点
目前所在公司所发展的阶段,对于稳定、效率、成本的取舍
王兴刚:在过去一年,公司在成本方面表现良好,但今年面临更大的挑战,尤其是在成本已经缩减的情况下,进一步降低成本比例将变得更加困难。目前的重点是提高效率,尽管作为技术部门负责人,成本仍然是重要因素。同时,要满足领导对效率的要求,你需要承担提高效率和降低成本的责任。在成本压力下,业务稳定性的要求有所降低,但仍需保证在不影响核心业务的前提下达到一定水平(如 90 分以上)。
许文强,当我们让用户考虑上云时,企业会从两个维度来考虑,即人力成本和资源成本,这两个维度最直观的表现是金钱。然而,另一个维度是在上云后,业务的迭代速度和底层维护的稳定性是否为业务带来价值。这个维度是无法量化的,取决于我们的公司如何评估当前发展阶段。就个人而言,我认为在早期上云可以带来巨大的便利,云成本可能是不可控的,但我们可以通过细致的沟通和提高利用率来降低成本。这其中还涉及到许多商务维度的沟通,可以降低成本,并且在业务价值方面,这是两个不同的话题。
张靖:在做成本优化方面,我们采取了三个步骤。首先,我们花了很多时间去计算降低成本的方法,包括服务器的采购成本和分摊逻辑,以及数据存储等,然后我们将成本分摊到业务上,其次,制定了指标和资产运营统计的工作等;最后是一些治理的手段——针对表可能我们会从格式上做一些压缩。我认为清楚地计算账目是非常重要的事情。最初,我们更关注预算和业务机器成本的分摊逻辑,而现在我们希望能够改变思维方式,更注重用量而不仅仅是机器的数量。
王远航:我所处的事业部在疫情期间经历了分子公司(含独立经营单元)融合成立行业事业群的过程,并在疫情初期伴随事业群的成立根据业务变革进行对应“瘦身”,通过业务整合和技术层面的努力,有效降低了成本。然而,这个过程并非没有代价,业务稳定性和交付质量受到了一定的挑战。稳定性成本的付出取决于经营压力、领导决策力的平衡。为了进一步降低成本,提高效能成为了关键的手段。
冯江:业内一些成熟的互联网企业,在内部已经形成了大量的私有云,有的甚至在讨论是否将其商业化,以降低成本并获得利润。相比之下,红书在业务高速发展阶段,基础架构相对较弱,主要依赖公有云采购。对于前端团队来说,人力成本是最大的。为了降低成本和提高效率,业内比较常用的是构建可复用的低代码平台的方式,此外,引入大量外包人员处理要求不高和不涉密性的工作,从而降低整体人力成本。前端作为流量入口,稳定性至关重要。团队在成本取舍时,将高端人才和核心研发力量集中在用户侧,通过引入外包来处理不太重要的场景,以确保稳定性。
许文强补充道:老板对于稳定、效率和成本都有要求,但我们作为研发人员更注重稳定性。我们认为稳定性比成本更重要,愿意支付更高的费用以确保客户不会遇到问题。因此,在成本优化方面,我们不能牺牲稳定性。我们更多地进行技术探索,包括运营调度和架构升级,以降低成本并保持稳定性。
郭凤钊:今年是菜鸟公司降本的第三年,我们是经营责任制,将成本分摊给各团队。第一年我们着重梳理账务,让团队明确成本,并成功削减了预算;第二年我们深度降本,实现了零增长并支持业务增长。我们采取了“捞浮油”的策略。起初,大家并没有过多关注成本优化,无论是开发人员编写代码、申请资源还是进行技术方案评估,都没有意识到成本。因此,在第一年进行成本规划时,我们将重点放在了提醒开发人员和决策者的意识上,让他们知道成本是多少,不能超出预算,否则将面临什么后果;第三年,我们设定更高目标,要实现三年零增长并保持业务两位数增长,这非常具有挑战性。我们也采取了低码开发、资源外包等方式降低人力成本,同时与云服务商进行博弈,也可以一定程度上实现成本优化。
汤海涛:第一点,在过去的三年中,麦当劳自己开发了应用程序、小程序,建立了私有云,实施了双活等各种措施。这些费用主要来自我们对云服务提供商的削减,尤其是 AWS 和其他一些全球供应商;第二点,麦当劳的 IT 团队从过去的 30 人规模增长到 250 人,同时借助外包人员和服务供应商的支持来提供各支持,以保障服务的稳定性;第三点,在麦当劳,稳定性优先于成本:麦当劳在提升稳定性方面投入了大量资源,并获得了管理层和董事会的支持。当然,为了提高稳定性和备份能力,麦当劳选择了多云架构,并与阿里云、腾讯云进行了合作;与此同时麦当劳也有私有云的投资,尽管公有云和私有云的机器数量差不多,但我们认为拥有自己的数据中心和私有云是一项长期的投资决策,可以降低每年的云服务费用。
姚创沐:近几年,随着降低成本和提高效率的需求增加,公司开始对业务链路进行成本梳理,包括人力和机器成本,发现在过去的业务发展初期存在许多资源浪费现象。而这些浪费对业务并没有增量。除此之外大老板把成本放在第一位,但他也希望兼顾稳定性和效率,并给出了相应的目标。团队进行了目标对齐,包括有损操作,如通过优化算法减少 CPU 和 GPU 等资源的消耗,降低存储成本。同时,我们还对整个业务产品侧的效率进行了盘点,特别是基于大数据的策略,包括实验周期和流程的优化,以提高整体效率,同时这也对成本产生了影响。
降本之后,遇到了哪些稳定性的问题
王远航:交付质量如何持续提升、员工工作压力增大如何调节的问题突出。虽然我们客户主要来自非互联网行业,如运营商、航空公司和能源石化等,相比互联网领域,对前沿热点技术的应用相对较慢。但降本增效的压力也驱动我们要引入更高效能技术应用,如:AI 相关、低代码相关、数字化转型相关等,对应的人员结构和技能也需要调整,来适应数字化转型和新技术应用的要求,公司也通过一系列手段来帮助组织和员工提升,如:开设云学堂、新技术培训课程、定期技术沙龙等。同时公司技术管理层也持续的关注和确定引入那些新方向和技术作为应用选择。此外,生态圈合作也是降本增效的有效渠道,我们也正在寻找生态合作机会。
汤海涛:我们的期望是从供应商原本提供整套解决方案、提供软件的模式转变为提供能力的模式,这种能力可以是组件、API 或算力。企业在数字化转型过程中,可以打造自己的乐高积木,定义接口标准,并允许按照标准接入组件。举例来说,麦当劳采用外部供应商的系统进行员工排班,该供应商将自动排班引擎做成 API,使其能够与其他系统连接。这种从提供软件到提供能力的转变带来了更高效的解决方案。然而,全球供应链专业厂商对此意识较弱,国内软件企业有机会在小而美的能力方面发展。在人才结构培养方面,现在的趋势是停止招聘程序员,而是招聘产品经理和业务模式方面的人才。目标是培养既了解业务又了解产品的人才,并将编码工作部分外包给工程师,自身工程师负责 20%的编码工作。
郭凤钊:我们发现产业互联网的成本要比传统云服务低很多。为什么之前我们谈论云服务的价格很高呢?因为云服务的定价规则包括了技术开发和人力成本,这些成本会均摊给用户。云服务需要许多高技能的人才,否则无法进行开发和维护。但是实际的业务场景并不需要我们自己去搭建云服务。因此,我们现在正在关注人力成本,我们设定了年度目标,要将人力成本从一定金额降低到另一个金额。与外部创业者相比,他们在一年内可能实现了数十万元的成本,而云服务的成本可能是其三倍。
Yolanda:降本增效的三部曲。第一年账先算好,第二年然后定目标,第三年考虑增效
活动推荐:
2023 年 9 月 3 - 5 日,在北京·富力万丽酒店, QCon 全球软件开发大会(北京站)已开启,现已开启售票,提前订票,可享受 7 折早鸟价,购票参会可以直接电话 / 微信联系票务经理 18514549229。
评论