作者 | 苏锐
审校 | Kitty
策划 | QCon 全球软件开发大会
大模型已经成为新的 IT 基础设施,开源在这一领域里同样不可或缺,甚至来得更快。从 Meta 的 Llama 到源于 Berkeley 的 vLLM,从模型到推理端,从大公司到创业者,从海外到国内,开源在 AI 领域也是你方唱罢我登场。我们将在 10 月 18 -19 日 QCon 上海站【开源重塑 AI 开发生态】专场为大家奉献开源大模型和开源 AI 开发生态的前沿洞察和实践案例,希望能对进入 AI 领域的开发者在开源项目选型、应用架构乃至项目参与等方向有所参考和借鉴。目前是 8 折购票最后优惠期,感兴趣的同学前往了解。
本文整理自 Juicedata 合伙人 苏锐在 QCon 2024 北京的演讲分享“JuiceFS 的商业与开源实践”。
在分布式文件存储,这个已经发展了 30 年的成熟领域,创建 JuiceFS 是为了应对企业基础设施从本地机房向云端迁移时对分布式文件系统提出的新需求。2017 年推出了第一个云服务版。2021 年推出面向更通用存储需求的开源版。
社区版目前在 GitHub 已获得超过 1 万颗星标,是文件存储领域增长最快的项目之一,一些关键使用指标,例如文件系统数量和客户端数量,每年增长超过 100%。在 AI 领域,我们为许多前沿科技企业提供服务,包括大模型领域的 MiniMax、Lepton AI、智谱 AI、知乎等,自动驾驶企业 Momenta,以及一些头部的量化私募基金。目前的收入可以支持公司健康运营,也能持续支持我们持续投资于开源社区的发展。
今天,我将与技术领域的同行们分享一个在商业化过程中对我们具有实际借鉴意义的理论,以及在过去六年中面临的具体选择和权衡,希望我们的经历能为大家提供一些参考。
一个理论三个阶段
过去六年的创业过程中踩过很多坑,这迫使我们去寻找可以指导我们的答案。《跨越鸿沟》这本书是给我最多启发,该书最初发布于 1991 年,作者 Geoffrey A. Moore 深入观察了当时美国科技行业的发展并提出了自己的发现。
作者将市场接受过程划分为不同的阶段:创新者(innovators) 、早期采纳者(early adopters)、早期多数(early majority)、晚期多数和落后者(late majority)。这些阶段描述了从新技术被首次接受到广泛采纳的整个过程。
在该理论框架中,我将“产品市场化的三个阶段”概念纳入讨论 ,通过结合这两个概念,重点关注两个方面:一是各阶段目标人群的转变,二是每个阶段产品需要实现的市场化目标。
阶段 1:技术 - 问题匹配
在创业之初这个阶段往往没有一个成熟的产品,重点在于找到技术与问题的匹配点。
主要关注创新者(Innovators),他们些具备敏锐技术洞察力的用户。他们能够快速发现产品的独特优势,并愿意投入时间来深入研究和测试新产品。
然而,创业者需要了解的是,社区对项目的积极响应,例如 GitHub 上星星标快速增长并不直接等同于商业成功。
阶段 2:产品 - 市场匹配
当原型验证成功后,下一步是将其迭代和优化,逐渐转变成为可以市场接受的产品。这一过程中,企业需要定位早期采纳者,这是产品市场匹配(Product-Market Fit, PMF)的关键阶段。
早期采纳者更关心的是产品能否为他们带来业务价值。他们不仅可以容忍产品的初期不完善,而且愿意付费。 这使得他们成为真正能推动产品向主流市场过渡的关键力量。
因此,这个阶段产品的稳定性和可靠性非常关键;销售策略方面,在上一个阶段销售过程可能是随机的,类似于打猎,随机寻找机会。然而,这个阶段的关键在于定位到一群具有相似需求的目标客户,并在这些客户中重复成功的销售,这样的策略比随机打猎更为高效和可预测。
阶段 3:进入市场
这个阶段的目标是将产品推向更广阔的主流市场,实现规模化地扩展。面向广阔的市场,新进入者往往只能成为小鱼,边缘游走,随时可能被大鱼吞噬。当真正进入市场时,选择一个细分市场是至关重要的。 应该在这个小池塘中成为大鱼,这样才能在这个较小的领域内拥有更稳定的生存和发展空间。
如果对于细分市场的定位有误,即使销售团队再怎么努力,也难以实现销售目标。目前,我们正在经历这个阶段。主流市场的客户群更看重产品的稳定性、可靠性和持续性。
除了这个理论之外,有三件事对我们的发展也很重要,始终贯穿在我们的决策之中。
首先,从创业的第一天起,我们就将可持续发展作为第一要务。不同于一些先侧重规模再考虑盈利的项目,我们始终将盈利作为核心目标。在每个阶段,我们不断探索和优化商业模式,以确保每一步都能为公司的可持续发展奠定基础。
其次,寻找差异化和清晰的目标人群。在过去的六年中,我们不断通过寻找差异化来确定产品的立足点,并对服务的人群有相对清晰的定位。
第三,客户的满意度优先于产品宣传。我们在初期将工作的重点放在产品的研发、服务好现有客户上,客户满意才会持续使用也愿意转介绍新的用户,同时保持了 NDR (Net Dollar Retention)。
在接下来的部分,将介绍在发展的过程中,对几个具体问题的思考与实践。
JuiceFS 的 6 年,选择与取舍
为什么要做一款 SaaS 存储产品?
2005 年前后,伴随着互联网在全球范围内开始普及,诞生了一批分布式文件系统如 GlusterFS、HDFS、Lustre、BeegFS 和 MooseFS 等。2014 年,我们的创始人 Davies 加入 Databricks,开始从事完全基于云的工作。这激发了我们开发一个全新、专为云设计的文件系统的想法。在进行产品设计时,我们考虑到以下几点:
不重复造轮子: 鉴于对象存储的成熟度,我们选择基于已有的对象存储技术来开发此产品。如下图所示,用户可以选择多种主流的对象存储服务。
(JuiceFS 企业版架构图)
产品的交付形态是什么? 在开发初期,我们分析了传统的开源文件系统如 HDFS 和 Ceph,这些系统的运维复杂,入门门槛较高,企业往往需要组建三到五人的技术团队进行维护。在云环境中,用户更倾向于无需管理虚拟机或配置软件的即点即用服务,类似于 S3。
同时,文件系统的 API 已经标准化,如 POSIX 和 HDFS 等已被市场广泛接受和长期使用。基于这些标准,用户无需担心技术细节或厂商锁定的问题。因此,我们选择了 SaaS 的形式来交付产品。
于是在 2017 年,我们推出了 JuiceFS 云服务产品,实行按需付费模式。出于对产品潜力的信心以及验证其商业价值,我们选择直接推出这款商业产品。
从一开始决定做 SaaS 产品,这让我们的客户选择变得相对简单。由于 SaaS 产品的特性,大型企业和金融企业在初期通常不会选择这种存储解决方案,因为他们更倾向于高度定制化和自主可控的本地部署系统。因此,在初期,我们的目标客户主要是中小企业和科技公司,这使我们可以将团队的所有研发力量都投入到产品的开发中。这种策略使我们能够专注于打造高质量的产品,快速迭代和优化功能,满足更多中小企业和科技公司的需求。
SaaS 模式适合中小规模客户,交付效率高,客户自助服务,但也存在一些限制,如依赖 EIP 的性能,多租户环境中有干扰。随着产品的成熟,我们开始为那些追求极致性能的大型客户提供独立部署模式。这种转变使我们能够为更广泛的客户群提供服务,满足不同规模企业的需求。
商业上实现自给自足后,为什么推出开源版?
到了 2021 年,在商业化运营三年后,我们实施了一项重要的战略调整,推出 JuiceFS 开源社区版。
三年的商业探索加深了我们对文件存储领域用户需求的理解。我们意识到,这一领域的市场需求广泛,但需求分布非常分散,仅凭当前这款产品难以在市场中服务更多的用户和场景,为了扩展 JuiceFS 的用户群体我们决定推出开源版本。
在开源版本的设计上,我们采取了更开放的插件架构,用户可选择多种主流的开源数据库作为元数据引擎,这种插件架构可满足市场上约 80% 至 95% 的对分布式文件系统需求。与此同时,商业产品,继续专注于高性能、高负载这个细分场景。
(JuiceFS 社区版架构)
在存储领域,由于操作的不透明性,许多潜在用户对采用新的存储解决方案持谨慎态度。通过开源,用户可以直接查看和理解代码,这不仅增加了他们的信任感,也减少了他们对我们团队在商业方面可持续性的顾虑。对于商业版用户来说,即使公司未来遇到意外,他们也能无缝过渡到开源版本,从而保障自己的业务连续性。
在开源协议方面, 多数存储项目如 Gluster、Ceph、MooseFS、MinIO 采用的是 GPL 协议,我们选择了 AGPLv3 协议发布项目,AGPLv3 是 GPL 协议的扩展版,特别适用于网络服务的应用,要求即使软件只通过网络提供服务,修改后的源代码也必须公开,以确保用户的访问和修改自由。不同于一些其他开源产品收紧开源协议的做法,在一年后,为了减轻用户的使用顾虑,我们将许可协议更改为更为宽松的 Apache 2.0 协议。对于开源的投入,我们做好了长期的打算。开源版和商业版这两个版本,在我们内部是并重的。
开源战略提升了 JuiceFS 在基础软件领域的知名度,目前 JuiceFS 在文件存储领域是增长最快的项目,海外用户占比近 50%;同时,开源战略对我们的商业化也起到了重要的助推作用。
选择市场:从大数据到 AI
起初,商业化进展缓慢,即便是一些与我们关系良好的企业也只是将这项服务用于日志收集和数据备份等非核心业务。企业通常不会轻易更换底层存储系统。而且我们还是一家初创公司,赢得企业的信任更需要时间。我们只能踏实地服务好每一个用户,并通过他们的成功案例来开拓市场。
到了 2019 年,随着国内市场对上云的普遍接受,我们的产品在大数据领域开始取得显著成就,成功替代 HDFS 并协助客户在 Hadoop 生态系统中实现存储与计算的分离改造。然而,大数据项目也存在一定的缺点。由于大数据领域在中国已经发展了十几年,我们主要接触的是需要进行存储与计算分离架构改造的旧项目。这些项目往往涉及长期的迁移和升级工作,高昂的迁移成本使得我们在大数据场景的回报率不理想;同时,HDFS 和对象存储经过长期积累已能有效支持大数据场景,而 JuiceFS 的核心优势——POSIX 兼容性和性能在这个场景难以充分发挥。
因此,我们逐渐意识到,虽然大数据市场带来了一定的收入和客户信任,但它可能不是促进我们快速成长的理想细分市场。 这促使我们重新评估未来的业务方向和市场策略。
到了 2020 年,一个新的场景出现了。计算机视觉(CV)领域因深度学习的应用取得了显著的进展。当时流行的训练框架,如 Caffe、TensorFlow 和 MXNet 等。这些框架对 POSIX 协议有更强的需求, 从而使我们的竞争优势相比传统解决方案如 HDFS 和 S3 得到了显著提升。此时,我们的主要竞争对手变为了 Ceph 和 Gluster。
此外,在计算机视觉(CV)领域,对海量小文件的存储和性能需求尤为显著。处理的文件量巨大,特别是人脸识别和自动驾驶领域,例如 10 亿、50 亿甚至 100 亿文件,有效管理这些文件成了一个核心挑战。现有产品还不能有效解决如此庞大数量的文件管理问题。
面对市场上缺乏有效的解决方案,我们决定主动采取行动。因此,我们开始专注于开发和提升这部分技术能力,以解决海量小文件的管理问题。这为后续能在 AI 市场中获得竞争优势奠定了坚实的基础。
伴随着 AI 市场的发展,我们在 AI 场景的收入占比也逐年增高。2022 年 AGI 产品问世,AI 行业进入加速发展期,JuiceFS 在 POSIX 能力,扩展性,海量文件,高吞吐等多方面的出色表现,吸引了诸如 MiniMax、小红书、面壁智能和知乎等头部科技公司的信赖。此外,新的客户群体如 BentoML、 Libilibi AI 等需要高吞吐存储系统来加速推理应用,存储系统性能与经济效益直接相关。深度学习应用也扩展到生物医药、量化投资等更多领域。
正如标题所述,JuiceFS 这个项目并非起步于市场风口。文件系统是一个拥有 30 年历史的“古老”软件领域,但是它正在经历从本地数据中心向云迁移的变化,用户对文件系统的需求也随之发生改变,因此我们推出 JuiceFS。
开源版本让 JuiceFS 走入了更多的企业。在商业化的道路上,我们始终坚持可持续性发展的原则,从公司创建的第一天起,就始终在考虑如何打造自身的商业化能力。今天希望通过我的分享为 infra 创业者提供一些不同的商业化路径参考。最后打个广告,我们还在招聘核心系统开发工程师,欢迎有文件系统研发经验的同仁加入我们。
QCon 上海站【开源重塑 AI 开发生态】专题正在寻觅优秀的讲师人选,如果您有好的技术实践案例想要与我们分享,欢迎点击链接提交演讲申请。
评论