HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

大模型时代,我们可以用 Julia 做什么?| 年度技术盘点与展望

田俊

  • 2024-01-02
    北京
  • 本文字数:4449 字

    阅读完需:约 15 分钟

大小:1.98M时长:11:30
大模型时代,我们可以用 Julia 做什么?| 年度技术盘点与展望


从 ChatGPT 发布以来,大家对大模型相关生态的关注急剧上升,本人也在过去的一段时间里深度参与了大模型相关的一些基础工作。众所周知,目前围绕大模型相关的开发仍然以 Python 编程语言为主,作为一个 Julia 编程语言爱好者,我一直在思考的一个问题是,大模型时代我们可以用 Julia 做什么?


本文是 “2023 InfoQ 年度技术盘点与展望” 系列文章之一,笔者将结合自己在大模型领域的开发经验和对 Julia 生态的理解,尝试从两个不同的角度来回答上述问题。首先,我们将大模型研发的过程拆解开来,逐点分析目前已有的做法和面临的挑战,探讨 Julia 在该方向上落地的潜在可能性;然后纵览 Julia 以及一些其它编程语言中大模型相关开发的生态,试图找出一条更适合 Julia 编程语言的发展道路。

训练基座模型


基座模型的训练所面临的挑战在于,超大规模的参数量。目前主流开源的模型参数量都在数十亿、数百亿乃至数千亿的规模。想要高效地训练如此大参数量的模型并非易事,目前开源界主流的训练框架是 ++Megatron-LM++,在其之上还有一些其它工具库提供开箱即用的训练脚本。Megatron 的核心功能主要包括:Tensor Parallel(TP)、Data Parallel(DP)、Pipeline Parallel(PP)等。


TensorParallel 要解决的核心问题是,如何在单卡无法放入整个 Tensor 的情况下,高效地做 Tensor 之间的计算。


来源:https://colossalai.org/docs/concepts/paradigms_of_parallelism/#tensor-parallel


以矩阵相乘(A x B)为例,目前已有的做法是,将其中一个矩阵 B 拆分到不同的 GPU 卡上,然后执行分块矩阵的计算,最后合并计算结果。


在 Julia 语言中,类似的需求可以通过 DistributedArrays.jl 来实现,其封装好了一个 DArray 类型的结构,底层不同 worker 可以独立并行地做计算。


```juliausing DistributedArraysA = rand(1:100, (100,100))DA = distribute(A, procs = [1, 2], dist = [1,2])
复制代码


不过遗憾的是,该软件包并不支持 GPU 上的操作。在 Python 这边,GPU 上的通信操作通常依赖于 NCCL 的实现,首先需要执行类似 broadcast 的操作将 A 矩阵分配到各个节点上,完成计算后执行 all-gather 的操作将计算结果同步到每个节点。尽管目前在 CUDA.jl 的文档中有提到,如果想要实现单机多卡或者多级多卡之间的通信,可以借助一些基于 GPU 的 MPI 的实现,但目前仍缺少一些相关的实践。此外,另外一条可行的路径是,借助 Yggdrasial 中封装的 NCCL library,直接做多机多卡之间的通信,不论是基于 Distributed.jl  来实现还是独立再封装,具体实现上仍有不少工作,理想情况下,该工具库可以提供类似 torch.Distributed 的功能。


DP 的核心是将多份数据同时应用到模型的多个副本上,从而提升训练期间模型的吞吐量,缩短训练周期。该过程最核心的挑战在于降低同步多个副本之间参数的通信量。在 Megatron 中,有一系列工作来优化该步骤,其中最核心的一个组件是 DistributedOptimizer 。



简单来讲,将 Optimizer 本身的参数,以及模型本身的参数和梯度等切分到不同的节点,再按需进行同步,可以大大降低模型优化过程中的通信成本。实现该优化器本身的难度并不大,但其前置条件(高效易用的 NCCL 实现)却是最大的障碍点。


值得一提的是,近来在 Flux.jl 之外,又多了一个 Lux.jl 选择,相比之下,其宣称的最大不同点在于“显式参数化”,在分布式优化场景下,这种特性具有其特殊的现实意义,即将参数展开之后,可以很容易地实现分片操作以及多机多卡之间的高效通信。

Fused Kernel


此外,在预训练(以及推理阶段),常见的一个优化手段是将几个算子做聚合,降低额外的显存开销并提升计算速度。最广为人知的是 Flash Attention 的实现,采用 C++ 显著地提升了 scaled dot production attention 的计算,然后通过 binding 提供给 Python 用户。在 Julia 这边,通常类似的操作我们会选择用 CUDA.jl 来实现,其优势在于一种语言即可完整地实现整个需求。对于一般的使用场景而言,确实如此。但在 Flash Attention 这类场景中,想要用纯 Julia 来实现出和 C++ 类似的效果,却是一件并不容易的事情,其原因在于,一方面,CUDA.jl 支持的指令落后一些,导致需要手动插入类似异步拷贝、扩展 WMMA 指令等操作,另一方面,细粒度优化导致最终实现出来的代码和 C++ 版的复杂度差异不大。不过,未来一个值得尝试的方向是,可以集成类似 OpenAI Triton 这类库,然后将 Python 或 Julia 作为前端语言,进一步优化此类操作的门槛。

混合精度计算



来源:https://developer.nvidia.com/blog/accelerating-ai-training-with-tf32-tensor-cores/


为了降低显存的占用,提升计算效率,模型的权重、前向后向计算部分一般采用半精度的格式,而优化器的计算则会采用全精度。遗憾的是,在 Julia 这边想要实现混合精度的计算目前还是比较困难的一件事。类似 BF16/FP8 的支持还未实现,而想要使用该功能仍需等待 CUDA.jl 中的实现。

指令微调


从语言支持层面来讲,微调部分并没有引入额外的复杂度。目前指令微调的常见做法包括 SFT、DPO、RLHF 等,其中较为复杂的部分一环是 RLHF,完整的 RLHF 训练通常涉及到 4 个不同的模型组件之间协同操作,其最大的难点在于管理好多个模型在多机多卡上的调度以及相互之间训练数据的同步。



来源:https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/rlhf/rlhf.png


目前主流支持 RLHF 的库主要基于 Ray 来实现,借助 Ray 的资源调度能力和 Actor 之间高效的通信机制,可以在 Ray 之上实现大模型的微调。在 Julia 这边,单机版的 RL 算法(如 PPO 等)已经在 ReinforcementLeaning.jl  中有实现,但想要扩展到多机的版本仍有不少工作,其主要的工作量在于多节点之间的高效通信,若 NCCL 能与 Distributed.jl 完美集成,则分布式版 RLHF 的实现难度会大大降低。此外,为了降低训练期间对 GPU 资源的占用,有一些 PEFT (Permeter Efficient Fine-Tuning) 的相关工作也值得关注。

量化与部署


在量化方面,主流的两种算法是 GPTQ 和 AWQ。抛开其具体的实现细节,一个值得关注的点是,其高效实现仍有赖于底层 CUDA kernel 的实现。一方面,对已有模型的量化压缩是一次性的工作(除了一些在训练过程中做量化压缩的算法以外),另一方面,此类 CUDA kernel 的实现并非简单调用 CUDA.jl 即可完成,需要对底层指令有比较详细的了解,对于 Julia 开发者而言,并没有太多动力去从事相关的研发。


在部署方面,目前的主流仍然是 vllm ,想要在其它编程语言中想要完整实现类似的功能模块,会遇到和量化一样的困难。不过由于在私有化部署过程中往往在这块有一些个性化的需求,因此其它编程语言的开发者仍然有足够的动力通过对底层的 C++ 进行二次封装之后,在上层提供服务。

应    用


目前围绕大模型的应用层出不穷,从底层软件开发的角度来看,主要有两类,一类是围绕 Prompt 的实践,另一类是围绕大模型本地化部署及应用。


对于围绕 Prompt 的应用而言,其对编程语言的要求较低,更多地属于通用编程领域范畴。以 Python 中比较流行的库 LangChain 为例,其内置支持的多种复杂场景下使用大语言模型的基础工具库,对于 Julia 编程语言而言,由于其相关生态仍然有限,目前的主流的做法是通过类似 PythonCall 的工具库来实现调用。


此外,一个值得关注的细分领域是 Retrieval Augmented Generation,其核心在于借助向量检索等工具扩展上下文,主流的做法是将知识信息以向量的形式,存储到向量检索数据库中。Julia 在这一块有一些不错的向量检索工具库(如 SimilaritySearch.jl、HNSW.jl 等),虽然距离一个成熟的数据库还有一定距离,但仍然非常有潜力形成一套端到端的系统。


在大模型部署方面, Julia 对 GGML/GGUF 等格式的支持仍然有限,而这也进一步限制了桌面端应用的相关开发。目前,基于 Llama2 的架构,有一些不错的尝试,如 https://github.com/cafaxo/Llama2.jl ,对于个人开发者而言,是一个不错的起点来尝试和理解 Llama 架构。


此外,如果想要实际开发和接入目前 HuggingFace 上已有的大模型生态,则推荐大家基于 Transformers.jl  进行开发,目前这块经过多次迭代,已经能很好地支持一些主流的大语言模型,包括从 HuggingFace 的 load 和 save,本地的训练推理以及微调等。对于中小尺寸的模型,已经可以比较方便地利用其做一些原生的 Julia 相关应用开发。

其它编程语言中大模型相关生态


在主流的 Python 编程语言之外,目前发展较好的是 Rust,从最早基于 Rust 实现的 Tokenizer,再到近来有 HuggingFace 光环加持的 candle 等库,逐步涵盖了训练、推理、量化和部署等完整链路,可以看到其相关生态正在逐步形成。其整个链路对于 Julia 社区有很强的借鉴意义,即先从推理入手,然后丰富单机多卡的训练微调等任务,再在其之上构建完整的应用体系。


其它编程语言的生态目前主要以本地化部署和 Prompt Engineering 为主,比如由 Go 语言实现的工具 Ollama (https://github.com/jmorganca/ollama) 以及 LocalAI (https://github.com/mudler/LocalAI),凭借其易用性收获了大量的开发者和用户;以及 LocalAI (https://github.com/mudler/LocalAI),主打本地化部署,实现 OpenAI 的私有化平替;再如 Elixir 语言编写的 LangChain 类的工具 https://github.com/brainlid/langchain,提供 Elixir 语言下的大模型工具集成。

结论与展望


以下是本人在大模型领域观察到的一些趋势和预判:

  1. 在预训练领域,模型的结构越来越趋于统一,这主要是因为模型的探索成本较高。这对于其它小众编程语言而言,是一个利好消息,因为对于维护者而言可以重点支持某些特定的架构。

  2. AutoTrain  等类似的工具会大幅降低微调大模型的门槛,成熟的算法会逐步沉淀到工具库中,而终端用户仅需关注数据层面。

  3. 基于纯 Julia 来实现完整的大模型训练还有很长的路要走,这一点可以参考 JAX 目前的发展,尽管 JAX 的生态已经要比 Julia 好很多,但目前在开源界仍然缺少成熟的应用。

  4. 基于纯 Julia 实现的应用层软件相比其它编程语言并没有压倒性优势,更需要关注如何与 Julia 领域已有的科学计算生态打通。

  5. 对于 Julia 编程语言爱好者而言,更务实的路线是,用好大模型(推理、部署) -> 改造大模型(微调) -> 训练大模型。Christopher 最近的一篇 blog 里通过详细的例子介绍了 ChatGPT 在许多编程问题上 Julia 的效果都明显好于其它语言,而我本人也在从事训练更好的 Julia 专用模型,期待后续能有更多内容可以和大家分享。

作者介绍:


田俊,Julia 编程语言爱好者,目前在零一万物从事大模型基础架构方面的工作


如果你觉得本文对你有帮助,或者你对编程语言在大模型时代的发展有自己的思考,欢迎在文末留言告诉我们!


InfoQ 2023 年度技术盘点与展望专题重磅上线!与 50+ 头部专家深度对话,探明 AIGC 创新浪潮下,重点领域技术演进脉络和行业落地思路,点击订阅/收藏内容专题,更多精彩文章持续更新 ing~


另,InfoQ 年度展望系列直播将于 2024 年 1 月 2 日首场开播,持续输出精彩内容,关注 InfoQ 视频号,与行业技术大牛连麦~

2024-01-02 15:476917
用户头像
蔡芳芳 InfoQ主编

发布了 798 篇内容, 共 548.6 次阅读, 收获喜欢 2788 次。

关注

评论

发布
暂无评论

创建型模式之单例模式和工厂模式

共饮一杯无

设计模式 创建型模型 三周年连更

TCP正常关闭连接

阿泽🧸

TCP 三周年连更

C头文件是什么,使用mmap

linux大本营

C语言 Mmap

C语言检测输入的ip地址是否合法

linux大本营

C语言 IP地址

C语言检测输入的ip地址中含有几个.

linux大本营

C语言 字符串

QUIC技术分享

linux大本营

网络协议 udp QUIC

2023-04-21:用go语言重写ffmpeg的metadata.c示例。

福大大架构师每日一题

Go ffmpeg

AI视觉实战2:实时头发染色

轻口味

android AI 图像处理 三周年连更

组播ip地址,广播ip地址,特殊ip地址

linux大本营

TCP IP地址

解析mmap系统调用的所有的标志位

linux大本营

Linux 内存管理 Mmap 系统调用 内存映射

华为云数据灾备,为企业数据安全保驾护航

平平无奇爱好科技

华为云灾备方案,让安全到家

平平无奇爱好科技

kafka常用命令

烟波

kafka MQ 中间件

Flutter 开发:如何引入第三方库并安装使用

三掌柜

三周年连更

Prometheus常用资源监控

乌龟哥哥

三周年连更

华为云数据灾备解决方案为您的数字资产提供多重防护

平平无奇爱好科技

如何守好企业数据安全防线?华为云数据灾备告诉您!

平平无奇爱好科技

一文初探 Goroutine 与 channel

陈明勇

Go golang channel goroutine 三周年连更

华为云数据灾备,助力企业应对信息安全

平平无奇爱好科技

华为混合云数据灾备方案,保护企业数据安全

平平无奇爱好科技

Django笔记十三之select_for_update等选择和更新等相关操作

Hunter熊

Python django select_for_update bulk_create update_or_create

运行脚本报错lindex:未找到命令

linux大本营

bash Linux 脚本

lindex命令在shell脚本里的应用

linux大本营

Shell linux命令 脚本 shell脚本

怎么看电脑上是否有lindex命令可运行

linux大本营

bash Linux linux命令

怎么查看自己的mac地址和ip

linux大本营

Mac 网络 Windows Server IP地址

挑战 30 天学完 Python:Day11 函数

MegaQi

Python 挑战30天学完Python 三周年连更

一键搭建web版chatGPT,无需魔法,国内可用

石云升

AI AIGC ChatGPT 三周年连更

IPv6过渡技术概述

穿过生命散发芬芳

ipv6 三周年连更

Android XML数据解析

梦笔生花

android XML配置 三周年连更

大模型带来的Web复兴,会是昙花一现吗?

脑极体

AI 云厂商

JavaSE 和 Java EE 分别是什么

HoneyMoose

大模型时代,我们可以用 Julia 做什么?| 年度技术盘点与展望_生成式 AI_InfoQ精选文章