采访嘉宾|百度文心一言 App 技术负责人 樊中恺
去年,文心一言大模型发布不久后,百度公司宣布文心一言 App 在苹果应用商店正式上架。
这则消息在科技圈引起了不小的震动,作为国内首款以大语言模型为基础的 C 端 App 产品,文心一言 App「轻装上阵」,不足 50 M 的体积里却装载了丰富的功能。这相比于目前应用市场上动辄几百、上千兆的应用来说,给用户传达了一种认知:「模型虽大,但 APP 却可以做得很轻」,再加上文心一言大模型自身影响力的加持,文心一言 App 吸粉众多。
近日,InfoQ 有幸采访了文心一言 App 背后的技术团队,听他们讲述了如何在四个月的时间里,从 0 到 1 做出国内首个以大语言模型为基础的 C 端产品。据文心一言 App 技术负责人樊中恺称,做这款产品前,市场上可供参考的产品凤毛麟角且没有出色的本地化产品,整个开发过程其实是产品和技术团队的“放手一搏”。
“闭关”四个月,国内首款大语言模型 C 端产品的诞生
百度文心一言大模型发布于去年 3 月份,在这之后仅仅 4 个月,文心一言 App 就上线了。樊中恺表示,“这款产品可以说是在高度紧张的情况下完成的。整个团队在一个封闭的会议室里工作了整整四个月,从 3 月初一直到 7 月份,这期间的整个过程都是十分具有挑战性的。”
尽管目前大模型市场火爆异常,各家大模型层出不穷,但以大语言模型为基础的 C 端 App 产品数量相较于大模型产品并不算多。归根结底,C 端大语言模型产品的开发存在一定挑战性,并且与传统应用程序开发有诸多不同。
做 C 端大模型产品,和传统 App 开发有何不同?
据悉,C 端大语言模型产品和其他 C 端产品的主要区别并不在架构设计上。文心一言 App 在架构设计上充分依赖了百度内部文心一言团队提供的基础模型和文心千帆团队搭建的稳定的模型部署、训练、评估链路。这种不同部门的分工合作,最大限度地发挥了各角色工程师的专长。从数据采集到处理,从模型训练到部署,从策略到应用,文心一言 APP 作为整个流程的最后也是跟用户最近的一个环节,受益于百度在 AI 赛道厚积薄发的技术积累。
文心一言 App 在研发过程中面临的与传统应用开发不同的挑战主要在于以下几方面:
首先,要不断地进行功能优化和反复调试。这是因为在开发过程中,市场和模型能力等外部因素也在不断变化,想要一款大模型应用能够更好地满足用户需求,就必须确保产品与新的需求和模型升级相匹配,这部分工作需要的不光是面对变化的快速跟进,更需要时刻洞悉先进技术的迭代和其对市场产生的影响。
其次,研发团队还要关注模型的性能。一款模型能够使用并不代表其能够提供服务,所以在模型性能方面需要考虑是否达到了可服务的标准。就像语音识别的准确率一样,如果没有达到特定的阈值,即使再高的准确率也无济于事,这对于商用应用来说非常重要。所以,App 团队必须不断与大模型开发团队合作,不光要打磨产品功能,还要构建数据飞轮来帮助模型进化。
第三,还要解决一些延迟、用户查询响应时间等零散的问题。就拿如何保证低延迟问题来说,樊中恺和团队采用了缓存、多线程和异步处理等技术方式,进一步提高数据处理能力和并发性,缩短用户查询的响应时间。
此外,也要关注产品的安全性,确保不会返回异常内容或给用户带来误导。这些方面都需要不断打磨和优化,以确保产品上线前的质量。如果这些问题没有解决,会导致用户体验不佳,同时也可能产生不良的影响。
尽管克服了以上诸多挑战,但樊中恺却意外地说道:“事实上,复杂的技术架构并不是这款产品最依赖的部分”。
其实,文心一言 App 和大模型的交互,主要依赖的是类似 OpenAI 的 completions 推理接口,工作原理也很并不复杂,通过传递模型参数和上下文信息,然后获取响应。为了提升用户体验,接口支持流式返回。
“归根结底还要依赖于百度多年来的技术积累才能在如此快的时间里让这款 App 成功落地”。樊中恺如是说。
实际上,大模型产品的迭代方式也发生了彻底的改变。
以前的迭代是“随版的功能迭代",需要等待新版本发布后才能进行,而现在大模型的迭代更多地是“非随版的模型迭代",因为很多功能和改进可以通过优化模型来实现,而无需对 App 进行大规模的修改。因为用户与模型的互动已经以对话方式抽象出来,所以在交互需求的开发方面,迭代需求并不是特别频繁。需求的迭代重心已经从功能特性的迭代转向了模型的迭代。相反,要更多地关注外围问题,例如社区功能,角色设计等。
就相当于以前只有基础功能的交付速度迭代,而现在模型升级也成为了一种迭代,实际上是两种迭代叠加在一起,是一种 1 + 1 > 2 的状态。
值得一提的是,当一款大模型研发完成并上线后,以它为基础开发 App 的主要流程在短期内不会发生太大变化,尽管难以完全排除未来交互方式的更新。例如,目前主要以文字和语音为主,但未来多模式的交互可能变得更加自然。现在的 VR 和 MR 技术的蓬勃发展,可能会对交互方式产生影响。
资深技术人扛起安全和稳定大旗,年轻人是创新主力军
那么,到底是怎样的一支团队能完成这些横跨各个技术栈的工作任务?
据 InfoQ 了解,文心一言 App 背后的研发团队其实并不是一个规模很大的团队,一开始团队仅有 20 几个人,现在发展到了 30 几个人,“这些人都是来自百度内部各个部门的优秀技术人,他们有意愿、有热情来参与这个项目,因此也就一起走到了现在。团队中呈现出年轻化的趋势,甚至有不少 00 后也加入了技术团队。这个现象是有道理的,因为在这个项目中,年轻人能够更好地理解和贡献一些时下流行的‘梗’和概念,而这些对于稍年长一些的技术人可能相对陌生。例如,最近非常火的 IP 或者一些新概念,年轻团队成员更容易理解和分享,这对于项目的创新非常重要”,樊中恺解释道。在樊中恺带领的团队里,年龄最小的是一群准 00 后(98 年之后出生),这群新生技术力量在整个团队中的占比约为 10%。
开放、活跃、积极的工作氛围是激发团队创新的动力。文心一言 App 团队盛行着这样一种团队文化——新老力量精诚协作,鼓励所有成员积极分享他们的想法和创意,随时随地畅所欲言。
樊中恺表示:“我们有一个内部的创作群,所有成员都可以在其中分享他们平时的想法和观点,这种开放的氛围也有助于促进团队内部的创新。不过,团队中也有一些经验丰富的老成员,他们在这个项目中也发挥着至关重要的作用,因为他们拥有多年的互联网从业经验。所以,年轻成员与老成员的合作是我们团队的一大特点。”
在这个团队中,经验丰富的技术人主演承担着架构的稳定性和安全性等方面的工作,而更加年轻的技术人主要负责创新思维并焕发活力,两股力量互为补充,各自发挥优势,这才能确保项目的全面发展。
历时 4 个月,文心一言 App 1.0 版本成功问世。值得一提的是,在 1.0 版本时应用程序的基本功能就已完成了开发,包括对话体验、历史记录管理等。
在做文心一言 App 之前,国内还没有一款以大模型为基础的 App,所以樊中恺和团队完全是自己淌出来的一条路,用樊中恺的话来讲,希望能为这个行业抛砖引玉,贡献一些灵感和经验。
从文心一言 App 看大模型产品的设计思路
在智能手机和移动互联网飞速发展之下,市场上各类型的 App 成百上千,在方面用户选择的同时也会让用户陷入选择焦虑。乱花渐欲迷人眼,到底什么样的 App 才是一款好的 App?
目前,越来越多的用户对 App 的需求不再只是满足基本的功能需求,而是期待更加简洁、易用的用户体验。在樊中恺看来,一款好的 App,不仅要具备丰富的功能,最重要的是要让用户在操作上感受到简单、顺畅。
简洁、易用的界面设计。文心一言 App 的界面设计采用简洁、明了的设计风格,视觉色调控制在 3 个以内,给人不争不抢的舒适的视觉体验。在布局上,将重要的信息放在首页,让用户一眼就能看到自己关注的内容。
简单、流畅的交互设计。在使用该款 App 时,用户通过手指滑动、点击等简单的操作,就可以轻松地浏览和查找自己感兴趣的内容。同时,App 还提供了语音输入以及连续对话功能,让用户在需要的时候能够快速地找到自己想要的信息。
重视安全性与性能优化。通过设计可靠的登录和身份认证机制,辅之以牢固的安全保密措施,确保用户信息不被泄露。此外,为了提高 App 的性能和用户体验,团队进行了大量的优化工作,使得文心一言 App 在运行时能够保持流畅、稳定的状态。
提供了二创交流社区和分享功能。用户可以便捷地将自己的作品分享到微信、微博等社交平台,或者直接在文心一言 APP 内部进行交流讨论。这不仅可以让更多的人看到用户的创作,还可以增加用户的社交互动和影响力。
听百家之言,做正确的产品
一个产品的最终呈现,很大程度上是这个产品背后团队调性的诠释。樊中恺认为,虽然产品技术的重要性日益凸显,但在追求创新与进步的同时,不能忽视一些基本的原则和要求。
在产品研发初期,樊中恺和团队曾陷入了一个困境——就像某本书中所描述的那样,团队中的一些人明知道自己的做法存在问题,但却没有进行反思。他们认为自己只是执行者,无需深入思考。这种情况在产品开发中是非常可怕的。它可能导致产品质量下降,甚至失败。
幸运的是,樊中恺的团队很快意识到了这个问题,并采取措施解决它。他们明白,产品和研发必须共同认可才能着手进行,很多决策不能仅仅由产品或研发单方面决定,在这个领域,技术边界和能力边界都不太明确。因此,产品和研发必须进行深入的交流,以确保决策是明智的。
为了实现这一目标,樊中恺带领团队建立了跨部门的定期沟通会议,确保产品和研发团队有足够的时间来交流和讨论。这些会议不仅有助于分享信息,还为团队成员提供了提出建议和解决问题的机会。
此外,整个团队也加强了持续学习的意识。每周都会邀请一些外部专家和内部员工进行分享交流。这些专家或许并不一定是技术专家,但他们的经验和见解往往能为团队提供新的视角和思路。例如,他们曾经邀请了一位在装修行业工作的深度社区用户,这位用户与他们分享了他是如何在文心一言大模型平台上创建 prompt 的。尽管这并不涉及技术方面的内容,但这位用户在如何激发研发工程师的灵感方面提供了有价值的见解。
“在这个领域中,没有一成不变的规则。因此,培养这种感觉是非常重要的。通过不断的学习和交流,可以保持敏锐的洞察力,从而在复杂多变的环境中做出明智的决策”,樊中恺说道。
AI Native 产品未来趋势展望
在大模型走入生活的方方面面后,AI Native 的产品也如雨后春笋般涌现,文心一言 App 自然也是其中之一。那么,到底什么才是真正的 AI Native 的产品,要做一款 AI Native 产品需要重点关注什么?
AI Native 产品设计是指将人工智能技术深度融入产品设计和开发中,使产品具备智能化、自主化、个性化的特点,从而提高产品的用户体验和企业竞争力。AI Native 产品设计强调在产品的设计、开发、测试、部署等各个阶段都充分考虑人工智能技术的运用,以实现产品的智能化和自主化。
樊中恺称,“我们可以从两个不同的角度来看待这个问题。首先,从用户的角度来看,与传统的机械化交互方式相比,我们现在可以更像是在与一个真正的人交流,这改变了用户的体验;从研发团队的角度来看,以前在解决具体需求时,我们通常从工程角度出发,但现在我们更多地考虑是否可以通过提升模型的能力来解决问题。举个例子,如果我们发现一个 bug 或者产品提出了一个需求,不再仅仅依赖于基础规则来解决它,而是可能会向策略工程师提出需求,让他们来优化模型的性能。现在,策略工程师就可以直接解决工程方面的问题了”。
樊中恺还强调,“判断一款产品是否是 AI Native 最重要的一条准则就是与大型语言模型进行交互的方式。要无时无刻不考虑到,你的用户是在与一个大模型进行交互,这是一个重大区别。以此作为指导原则,我们在整个设计过程中强调‘对齐’这一关键词。”
与传统机器学习领域的对齐不同,这里所说的对齐是指在体验上的对齐。换句话说,就是用户是否能以最自然的方式与大型语言模型进行交互,而不是像以前那样频繁填写表单或其他 GUI 界面来发起问询。
为了加强对 AI Native 产品概念的理解,樊中恺举几个例子。例如,当用户打开应用时,会看到研发团队为用户提供的特殊功能,比如“欢迎语”等,这些都是针对用户历史对话和上下文,通过大语言模型生成的内容。此外,在文心一言 App 最近推出的互动伙伴中,有一个叫做“新闻查询员”的角色,用户可以通过与它对话来获取科技新闻等信息。传统的方式是通过信息流来给用户推送信息,但现在用户可以通过对话方式自然地获取这些内容,这是一种革命性的交互方式。
另一个比较有意思的角色例子是“MBTI 人格”和“星座女神”。以前的研发思路可能是简单地了解用户的性格类型或星座,但现在,用户可以通过与这些角色互动,更深入地了解这些概念,甚至与它们进行有趣的对话,从而颠覆了以往的交互方式。总的来说,这些创新不仅是工程问题,更重要的是如何将其包装成一个有趣的产品,构建知识库,并从多个维度审视产品,这是一个涵盖了理科和文科视角的共创产品。如果只有传统单一的思维方式,难以成功打造这样的产品。
在谈及对文心一言产品的未来规划时,樊中恺谈到,“我们肯定会继续探索如何让用户在我们的平台上度过更多时间。除了之前提到的功能,如角色扮演和新闻播报,我们也计划根据不同场景满足用户需求,类似于其他应用程序,如抖音、B 站和头条,它们都提供不同板块的内容以满足不同的用户需求。这可能需要训练新模型、进行提示词工程或调整交互方式等多种方法,我们将从用户量最大的品类开始,逐渐扩展到其他领域,以满足用户的各种需求。”
随着人工智能技术的不断发展,AI 原生应用开发的未来趋势也逐渐明朗。对此樊中恺表示,未来 AI 原生应用开发将更加注重技术的端云协同、大模型能力的释放、社会责任的平衡以及专业知识和表达能力的提升。
端云协同:为来的 AI Native 技术可能会在调用云端大模型的推理能力的基础上更加注重本地算力的释放。比如最新高通发布全新 X Elite 计算平台,在芯片中集成了更加强大的 AI 计算能力,未来的 LLM 也会因为模型的持续优化和硬件厂商的升级变得轻量化,从而大大降低模型推理的成本。
大模型能力的释放:随着深度学习技术的不断发展,大模型已经成为 AI 原生应用开发的重要方向。大模型可以提供更加强大的特征表示能力和泛化能力,从而提高模型的准确性和鲁棒性。这包括如何设计更加高效和可扩展的模型架构、如何优化模型的训练过程、如何利用分布式计算等技术提高模型的计算效率等等。
社会责任的平衡:AI 技术的发展在带来便利和效益的同时,也带来了一些社会问题,如失业、隐私泄露等等。因此,未来的 AI 原生应用开发需要在技术的发展和社会责任之间找到平衡。
专业知识和表达能力的提升:未来的 AI 原生应用开发需要更多的专业知识和技能。这不仅包括对深度学习、机器学习等相关技术的深入理解,还包括你是否能成为某个领域内的专家,从而推动大语言模型技术在该领域全面落地。此外,良好的语言表达能力也至关重要,因为能清晰地传达你的需求和观点对于与他人合作和沟通至关重要。一个好的 Prompt 工程师首先是一个好的表达者。最具危险性的情况是那些缺乏专业技能或者之前的经验都局限在某一框架、编程范式或重复性工作中的人。
评论