立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

不追风口,不依赖风投,盈利后为何选择开源?

苏锐

  • 2024-08-21
    北京
  • 本文字数:4850 字

    阅读完需:约 16 分钟

大小:133.57K时长:00:45
不追风口,不依赖风投,盈利后为何选择开源?

作者 | 苏锐

审校 | Kitty

策划 | QCon 全球软件开发大会


大模型已经成为新的 IT 基础设施,开源在这一领域里同样不可或缺,甚至来得更快。从 Meta 的 Llama 到源于 Berkeley 的 vLLM,从模型到推理端,从大公司到创业者,从海外到国内,开源在 AI 领域也是你方唱罢我登场。我们将在 10 月 18 -19 日 QCon 上海站开源重塑 AI 开发生态】专场为大家奉献开源大模型和开源 AI 开发生态的前沿洞察和实践案例,希望能对进入 AI 领域的开发者在开源项目选型、应用架构乃至项目参与等方向有所参考和借鉴。目前是 8 折购票最后优惠期,感兴趣的同学前往了解。


本文整理自 Juicedata 合伙人 苏锐在 QCon 2024 北京的演讲分享“JuiceFS 的商业与开源实践”。


在分布式文件存储,这个已经发展了 30 年的成熟领域,创建 JuiceFS 是为了应对企业基础设施从本地机房向云端迁移时对分布式文件系统提出的新需求。2017 年推出了第一个云服务版。2021 年推出面向更通用存储需求的开源版。


社区版目前在 GitHub 已获得超过 1 万颗星标,是文件存储领域增长最快的项目之一,一些关键使用指标,例如文件系统数量和客户端数量,每年增长超过 100%。在 AI 领域,我们为许多前沿科技企业提供服务,包括大模型领域的 MiniMax、Lepton AI、智谱 AI、知乎等,自动驾驶企业 Momenta,以及一些头部的量化私募基金。目前的收入可以支持公司健康运营,也能持续支持我们持续投资于开源社区的发展。


今天,我将与技术领域的同行们分享一个在商业化过程中对我们具有实际借鉴意义的理论,以及在过去六年中面临的具体选择和权衡,希望我们的经历能为大家提供一些参考。

一个理论三个阶段


过去六年的创业过程中踩过很多坑,这迫使我们去寻找可以指导我们的答案。《跨越鸿沟》这本书是给我最多启发,该书最初发布于 1991 年,作者 Geoffrey A. Moore 深入观察了当时美国科技行业的发展并提出了自己的发现。


作者将市场接受过程划分为不同的阶段:创新者(innovators) 、早期采纳者(early adopters)、早期多数(early majority)、晚期多数和落后者(late majority)。这些阶段描述了从新技术被首次接受到广泛采纳的整个过程。


在该理论框架中,我将“产品市场化的三个阶段”概念纳入讨论 ,通过结合这两个概念,重点关注两个方面:一是各阶段目标人群的转变,二是每个阶段产品需要实现的市场化目标。


阶段 1:技术 - 问题匹配


在创业之初这个阶段往往没有一个成熟的产品,重点在于找到技术与问题的匹配点。


主要关注创新者(Innovators),他们些具备敏锐技术洞察力的用户。他们能够快速发现产品的独特优势,并愿意投入时间来深入研究和测试新产品。


然而,创业者需要了解的是,社区对项目的积极响应,例如 GitHub 上星星标快速增长并不直接等同于商业成功。

阶段 2:产品 - 市场匹配


当原型验证成功后,下一步是将其迭代和优化,逐渐转变成为可以市场接受的产品。这一过程中,企业需要定位早期采纳者,这是产品市场匹配(Product-Market Fit, PMF)的关键阶段


早期采纳者更关心的是产品能否为他们带来业务价值。他们不仅可以容忍产品的初期不完善,而且愿意付费。 这使得他们成为真正能推动产品向主流市场过渡的关键力量。


因此,这个阶段产品的稳定性和可靠性非常关键;销售策略方面,在上一个阶段销售过程可能是随机的,类似于打猎,随机寻找机会。然而,这个阶段的关键在于定位到一群具有相似需求的目标客户,并在这些客户中重复成功的销售,这样的策略比随机打猎更为高效和可预测。

阶段 3:进入市场


这个阶段的目标是将产品推向更广阔的主流市场,实现规模化地扩展。面向广阔的市场,新进入者往往只能成为小鱼,边缘游走,随时可能被大鱼吞噬。当真正进入市场时,选择一个细分市场是至关重要的。 应该在这个小池塘中成为大鱼,这样才能在这个较小的领域内拥有更稳定的生存和发展空间。


如果对于细分市场的定位有误,即使销售团队再怎么努力,也难以实现销售目标。目前,我们正在经历这个阶段。主流市场的客户群更看重产品的稳定性、可靠性和持续性。


除了这个理论之外,有三件事对我们的发展也很重要,始终贯穿在我们的决策之中。


首先,从创业的第一天起,我们就将可持续发展作为第一要务。不同于一些先侧重规模再考虑盈利的项目,我们始终将盈利作为核心目标。在每个阶段,我们不断探索和优化商业模式,以确保每一步都能为公司的可持续发展奠定基础。


其次,寻找差异化和清晰的目标人群。在过去的六年中,我们不断通过寻找差异化来确定产品的立足点,并对服务的人群有相对清晰的定位。


第三,客户的满意度优先于产品宣传。我们在初期将工作的重点放在产品的研发、服务好现有客户上,客户满意才会持续使用也愿意转介绍新的用户,同时保持了 NDR (Net Dollar Retention)。


在接下来的部分,将介绍在发展的过程中,对几个具体问题的思考与实践。

JuiceFS 的 6 年,选择与取舍

为什么要做一款 SaaS 存储产品?


2005 年前后,伴随着互联网在全球范围内开始普及,诞生了一批分布式文件系统如 GlusterFS、HDFS、Lustre、BeegFS 和 MooseFS 等。2014 年,我们的创始人 Davies 加入 Databricks,开始从事完全基于云的工作。这激发了我们开发一个全新、专为云设计的文件系统的想法。在进行产品设计时,我们考虑到以下几点:


不重复造轮子: 鉴于对象存储的成熟度,我们选择基于已有的对象存储技术来开发此产品。如下图所示,用户可以选择多种主流的对象存储服务。



(JuiceFS 企业版架构图)


产品的交付形态是什么? 在开发初期,我们分析了传统的开源文件系统如 HDFS 和 Ceph,这些系统的运维复杂,入门门槛较高,企业往往需要组建三到五人的技术团队进行维护。在云环境中,用户更倾向于无需管理虚拟机或配置软件的即点即用服务,类似于 S3。


同时,文件系统的 API 已经标准化,如 POSIX 和 HDFS 等已被市场广泛接受和长期使用。基于这些标准,用户无需担心技术细节或厂商锁定的问题。因此,我们选择了 SaaS 的形式来交付产品。


于是在 2017 年,我们推出了 JuiceFS 云服务产品,实行按需付费模式。出于对产品潜力的信心以及验证其商业价值,我们选择直接推出这款商业产品。


从一开始决定做 SaaS 产品,这让我们的客户选择变得相对简单。由于 SaaS 产品的特性,大型企业和金融企业在初期通常不会选择这种存储解决方案,因为他们更倾向于高度定制化和自主可控的本地部署系统。因此,在初期,我们的目标客户主要是中小企业和科技公司,这使我们可以将团队的所有研发力量都投入到产品的开发中。这种策略使我们能够专注于打造高质量的产品,快速迭代和优化功能,满足更多中小企业和科技公司的需求。


SaaS 模式适合中小规模客户,交付效率高,客户自助服务,但也存在一些限制,如依赖 EIP 的性能,多租户环境中有干扰。随着产品的成熟,我们开始为那些追求极致性能的大型客户提供独立部署模式。这种转变使我们能够为更广泛的客户群提供服务,满足不同规模企业的需求。

商业上实现自给自足后,为什么推出开源版?


到了 2021 年,在商业化运营三年后,我们实施了一项重要的战略调整,推出 JuiceFS 开源社区版。


三年的商业探索加深了我们对文件存储领域用户需求的理解。我们意识到,这一领域的市场需求广泛,但需求分布非常分散,仅凭当前这款产品难以在市场中服务更多的用户和场景,为了扩展 JuiceFS 的用户群体我们决定推出开源版本。


在开源版本的设计上,我们采取了更开放的插件架构,用户可选择多种主流的开源数据库作为元数据引擎,这种插件架构可满足市场上约 80% 至 95% 的对分布式文件系统需求。与此同时,商业产品,继续专注于高性能、高负载这个细分场景。



(JuiceFS 社区版架构)


在存储领域,由于操作的不透明性,许多潜在用户对采用新的存储解决方案持谨慎态度。通过开源,用户可以直接查看和理解代码,这不仅增加了他们的信任感,也减少了他们对我们团队在商业方面可持续性的顾虑。对于商业版用户来说,即使公司未来遇到意外,他们也能无缝过渡到开源版本,从而保障自己的业务连续性。


在开源协议方面, 多数存储项目如 Gluster、Ceph、MooseFS、MinIO 采用的是 GPL 协议,我们选择了 AGPLv3 协议发布项目,AGPLv3 是 GPL 协议的扩展版,特别适用于网络服务的应用,要求即使软件只通过网络提供服务,修改后的源代码也必须公开,以确保用户的访问和修改自由。不同于一些其他开源产品收紧开源协议的做法,在一年后,为了减轻用户的使用顾虑,我们将许可协议更改为更为宽松的 Apache 2.0 协议。对于开源的投入,我们做好了长期的打算。开源版和商业版这两个版本,在我们内部是并重的。


开源战略提升了 JuiceFS 在基础软件领域的知名度,目前 JuiceFS 在文件存储领域是增长最快的项目,海外用户占比近 50%;同时,开源战略对我们的商业化也起到了重要的助推作用。

选择市场:从大数据到 AI


起初,商业化进展缓慢,即便是一些与我们关系良好的企业也只是将这项服务用于日志收集和数据备份等非核心业务。企业通常不会轻易更换底层存储系统。而且我们还是一家初创公司,赢得企业的信任更需要时间。我们只能踏实地服务好每一个用户,并通过他们的成功案例来开拓市场。


到了 2019 年,随着国内市场对上云的普遍接受,我们的产品在大数据领域开始取得显著成就,成功替代 HDFS 并协助客户在 Hadoop 生态系统中实现存储与计算的分离改造。然而,大数据项目也存在一定的缺点。由于大数据领域在中国已经发展了十几年,我们主要接触的是需要进行存储与计算分离架构改造的旧项目。这些项目往往涉及长期的迁移和升级工作,高昂的迁移成本使得我们在大数据场景的回报率不理想;同时,HDFS 和对象存储经过长期积累已能有效支持大数据场景,而 JuiceFS 的核心优势——POSIX 兼容性和性能在这个场景难以充分发挥。


因此,我们逐渐意识到,虽然大数据市场带来了一定的收入和客户信任,但它可能不是促进我们快速成长的理想细分市场。 这促使我们重新评估未来的业务方向和市场策略。


到了 2020 年,一个新的场景出现了。计算机视觉(CV)领域因深度学习的应用取得了显著的进展。当时流行的训练框架,如 Caffe、TensorFlow 和 MXNet 等。这些框架对 POSIX 协议有更强的需求, 从而使我们的竞争优势相比传统解决方案如 HDFS 和 S3 得到了显著提升。此时,我们的主要竞争对手变为了 Ceph 和 Gluster。


此外,在计算机视觉(CV)领域,对海量小文件的存储和性能需求尤为显著。处理的文件量巨大,特别是人脸识别和自动驾驶领域,例如 10 亿、50 亿甚至 100 亿文件,有效管理这些文件成了一个核心挑战。现有产品还不能有效解决如此庞大数量的文件管理问题。


面对市场上缺乏有效的解决方案,我们决定主动采取行动。因此,我们开始专注于开发和提升这部分技术能力,以解决海量小文件的管理问题。这为后续能在 AI 市场中获得竞争优势奠定了坚实的基础。


伴随着 AI 市场的发展,我们在 AI 场景的收入占比也逐年增高。2022 年 AGI 产品问世,AI 行业进入加速发展期,JuiceFS 在 POSIX 能力,扩展性,海量文件,高吞吐等多方面的出色表现,吸引了诸如 MiniMax、小红书、面壁智能和知乎等头部科技公司的信赖。此外,新的客户群体如 BentoML、 Libilibi AI 等需要高吞吐存储系统来加速推理应用,存储系统性能与经济效益直接相关。深度学习应用也扩展到生物医药、量化投资等更多领域。


正如标题所述,JuiceFS 这个项目并非起步于市场风口。文件系统是一个拥有 30 年历史的“古老”软件领域,但是它正在经历从本地数据中心向云迁移的变化,用户对文件系统的需求也随之发生改变,因此我们推出 JuiceFS。


开源版本让 JuiceFS 走入了更多的企业。在商业化的道路上,我们始终坚持可持续性发展的原则,从公司创建的第一天起,就始终在考虑如何打造自身的商业化能力。今天希望通过我的分享为 infra 创业者提供一些不同的商业化路径参考。最后打个广告,我们还在招聘核心系统开发工程师,欢迎有文件系统研发经验的同仁加入我们。


QCon 上海站【开源重塑 AI 开发生态】专题正在寻觅优秀的讲师人选,如果您有好的技术实践案例想要与我们分享,欢迎点击链接提交演讲申请。



2024-08-21 18:499212

评论

发布
暂无评论

离线部署系列文章之一:TiDBv5.3.0集群部署&源码部署 Haproxy v2.5.0

TiDB 社区干货传送门

实践案例 版本升级 管理与运维 安装 & 部署 扩/缩容

TiDB 和 Java 的简单 CRUD 应用程序

TiDB 社区干货传送门

TiDB 和 Golang 的简单 CRUD 应用程序

TiDB 社区干货传送门

如何让 TiDB 集群管理“更省心”?TiUniManager(原 TiEM)使用教程来了

TiDB 社区干货传送门

魅族高校新生充电计划进行中,直播课让科目一新生直呼厚道

Geek_2d6073

Go-Excelize API源码阅读(十四)——GetSheetFormatPr

Regan Yue

开源 源码刨析 Go 语言 8月日更 8月月更

HarmonyOS Connect FAQ第四期

HarmonyOS开发者

HarmonyOS

希捷亮相OCP China Day 2022,与生态伙伴共话绿色存储之道

Geek_2d6073

五天玩转EMAS Serverless

云端explorer

云计算 Serverless emas

利用现有数据库管理系统创建一个安全的分布式数据库集群

亚马逊云科技 (Amazon Web Services)

大数据 分布式 Tech 专栏

20万字的《Kafka运维实战宝典》PDF现在免费下载了

石臻臻的杂货铺

大数据 kafka

手把手教你实现 TiFlash 向量化函数丨十分钟成为 TiFlash Contributor

TiDB 社区干货传送门

多并发下线程创建、释放的阻塞问题

TiDB 社区干货传送门

TiFlash Proxy 模块介绍

TiDB 社区干货传送门

采访22年第一批秋招上岸的同学后,我整理了这份Java面试手册

Java面试那些事儿

Java 编程 程序员 架构 面试

离线部署系列文章之二:TiDB集群升级(5.3.0->5.4.2)&缩扩容 TiDB Server、PD、TiKV、TiFlash

TiDB 社区干货传送门

版本升级 集群管理 管理与运维 安装 & 部署

大数据训练营毕业总结

Geek_Q

什么!阿里最新版Spring Cloud Alibaba项目文档,竟将重要组件弃用

收到请回复

Java spring 阿里巴巴 面试 spring-cloud

云堡垒机主要针对运维过程中的什么进行管理和审计?

行云管家

运维 堡垒机 IT运维 云堡垒机

膜拜阿里!首次发布「10亿级并发系统设计文档」(内部绝密)

退休的汤姆

阿里 面经 Java工程师 秋招 并发系统设计

一对一直播软件——如何实现音视频传播?

开源直播系统源码

软件开发 直播系统源码 一对一语音聊天软件 语音直播系统

如何在企业数字化团队内部实现数据分析建模成果的结构化整合沉淀

ModelWhale

工作流 数字化转型 数字化 案例分享 提高效率

当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略

Alluxio

腾讯 存储 Alluxio block 8月月更

离谱!这份笔记及实战手册帮助你四天快速上手SpringSecurity

了不起的程序猿

Java springsecurity java程序员 框架

某站下载量过W的近4000页“Java面试合集”号称大厂面试零门槛

收到请回复

Java 程序员 面试 金九银十

基础到高级涵盖11个技术,Alibaba最新出品711页Java面试神册真香

收到请回复

Java 大数据 架构 编程语言 语言 & 开发

对话ACE第五期:到底什么才是真正的HTAP?

OceanBase 数据库

故障处理 | DM 搭建 MySQL 8.0 同步链路报错:code=26005

TiDB 社区干货传送门

安装 & 部署 TiDB 源码解读

PingCAP Clinic 服务:贯穿云上云下的 TiDB 集群诊断服务

TiDB 社区干货传送门

传统堡垒机数据可以迁移到云堡垒机上吗?方式有哪些?

行云管家

云计算 网络安全 堡垒机

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB 社区干货传送门

不追风口,不依赖风投,盈利后为何选择开源?_云计算_InfoQ精选文章