写点什么

极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理

  • 2025-01-17
    北京
  • 本文字数:1819 字

    阅读完需:约 6 分钟

大小:931.23K时长:05:17
极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理

Phi-4 的模型参数量是 14B,这使它在推理的时候比较耗费内存。因此如果我们想要在边缘端运行,需要对它进行量化。量化的手段很多,此前也介绍过,使用 Auto-Round GTPQ 格式的方法量化即可。


我们看一下量化到四位以后,推理时占用的显存以及效果。


针对量化版本,我写了一个 vLLM 推理的程序,推理速度很快,占用 11GB 显存,推理的结果也很准确。这样我们就可以在消费显卡上运行 Phi-4 了。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    推理代码见 repo:

    https://github.com/xinyuwei-david/david-share.git 下的

    DeepLearning/Phi4


    接下来,我将介绍 Phi-4 整体的架构。


    近期,微软推出了最新的大型语言模型 Phi-4,它在保持相对较小参数规模的情况下,展示了令人瞩目的性能。Phi-4 通过创新的训练方法和高质量的数据,在多个自然语言处理任务中取得了优异的成绩。本文将详细介绍 Phi-4 的模型架构、训练策略、性能表现,以及如何在本地计算机上对其进行微调。


    Phi-4 简介


    Phi-4 是微软 Phi 系列模型的最新成员,参数量为 140 亿。这一规模在大型语言模型中属于中等,但 Phi-4 通过精心设计的训练流程和数据,展现出了与更大参数量模型相媲美的性能。



    模型架构与特点


    • 基于 Transformer 的架构


    Phi-4 采用了经典的 Transformer 解码器架构,共有 40 层网络结构。这种架构在自然语言处理任务中被证明是高效且有效的,能够捕捉文本序列中的长期依赖关系。


    • 上下文长度的扩展


    初始的 Phi-4 支持 4,096 个 Token 的上下文长度。在中期训练阶段,微软将上下文长度扩展到了 16,000 个 Token,使得模型能够处理更长的文本输入,适应更多样化的任务需求。


    • 分词器与词汇表


    Phi-4 使用了 OpenAI 的 tiktoken 分词器,词汇表大小为 100,352。这一选择兼顾了多语言支持和分词效果的优化。


    • 注意力机制与位置编码


    Phi-4 在模型中使用了全局注意力机制(Full Attention),对整个上下文序列进行自注意力计算。此外,模型采用了旋转位置编码(RoPE)并在中期训练中调整了基频,以适应更长的上下文长度。


    创新的训练策略


    • 合成数据的广泛应用


    与传统模型主要依赖互联网抓取的数据不同,Phi-4 大量使用了合成数据进行训练。微软通过多种技术生成了大约 4,000 亿个 Token 的高质量合成数据,包括:

    • 多代理提示:利用多个语言模型生成多样化的数据。

    • 自我修正流程:模型生成初始输出后,进行自我评估和修正。

    • 指令反转:从已有的输出生成对应的输入指令,增强模型的指令理解能力。


    合成数据具有结构化、渐进式的特点,能够引导模型逐步学习复杂的推理和问题解决能力。


    • 精选的有机数据


    除了合成数据,Phi-4 还从多种来源精心挑选了高质量的有机数据,如网页内容、书籍、代码库和问答集合。通过严格的过滤和去重,确保了数据的高质量和多样性。


    • 多阶段训练流程


    Phi-4 的训练分为多个阶段:

    • 预训练阶段:建立模型的基础语言理解能力,使用了约 10 万亿个 Token 的数据。

    • 中期训练阶段:扩展上下文长度至 16,000 个 Token,进一步提升模型的性能。

    • 后训练阶段(微调):通过监督微调(SFT)和直接偏好优化(DPO)等方法,优化模型的输出,使其更符合人类的偏好。


    先进的训练技术


    • 关键 Token 搜索(PTS)


    PTS 是一种创新的训练方法,通过识别对模型输出影响最大的关键 Token,针对性地优化模型在这些位置的预测。这种方法提高了训练效率,增强了模型在关键决策点上的表现。


    • 改进的直接偏好优化(DPO)


    在 DPO 过程中,Phi-4 结合了 PTS 方法,使用高质量的偏好数据优化模型的输出。通过评估模型在关键 Token 上的表现,进一步提升了优化效果。


    性能评估


    • 外部评测基准


    Phi-4 在多个公开的评测基准上表现出色:

    • MMLU:在多任务语言理解测试中取得了优异成绩。

    • GPQA:在研究生水平的 STEM 问答中表现突出。

    • MATH:在数学问题解决方面展现了强大的能力。

    • HumanEval:在代码生成和理解任务中超越了同等规模的模型。


    • 内部评测套件(PhiBench)


    微软开发了内部评测套件 PhiBench,涵盖了代码调试、代码补全、数学推理等任务,帮助团队深入了解模型的能力和不足,并有针对性地进行改进。


    模型的局限性


    尽管 Phi-4 性能强大,但仍存在一些局限性:

    • 指令遵循能力:在严格格式化输出方面表现不佳。

    • 冗长的回答:有时会对简单问题给出过于详细的答案。

    • 对话能力:优化于单轮查询,缺乏持续对话的能力。


    这些局限性主要源于模型的训练重点在于推理和问题解决,而非对话或指令遵循。


    更多精彩内容请点击下载

    《极客说|微软新模型:Phi-4 来了》

    《利用 AI 和 DevOps 重新定义开发人员体验》

    《SAP on Microsoft Cloud》

    《智能GitHub Copilot副驾驶®提示和技巧》

    2025-01-17 15:1212433

    评论

    发布
    暂无评论
    发现更多内容

    Web3 DAO 开发全流程实战:从治理机制设计到社交平台适配的去中心化组织构建

    西安链酷科技

    一拍即存!小红书爆款一键提取到飞书多维表格含快捷指令

    阿星AI工作室

    产品 AI 自媒体 小红书 选题

    AI 英语学习 APP 的运营

    北京木奇移动技术有限公司

    AI教育 软件外包公司 AI英语学习

    AI 原生应用开发实战营·深圳站丨限时报名开启!

    阿里巴巴云原生

    阿里云 Serverless RocketMQ 微服务 云原生

    区块链/Web3 项目开发和运营

    北京木奇移动技术有限公司

    区块链开发 软件外包公司 web3开发

    超级服务商城 O2O 小程序系统:一站式服务交易解决方案

    微擎应用市场

    2025中国密码学会年会“人才培养论坛”成功举办,产学共探密码人才培育新路径

    隐语SecretFlow

    数据堂电力行业AI平台建设与高质量多模态数据赋能实践

    数据堂

    人工智能 数据标注 标注平台 能源电力 高质量数据集建设

    区块链游戏开发核心技术

    北京木奇移动技术有限公司

    区块链游戏 区块链开发 软件外包公司

    闲鱼商品列表API秘籍!轻松获取列表数据

    Datafox(数据狐)

    闲鱼数据采集 闲鱼商品列表api 关键词搜索闲鱼接口

    什么是CEX(中心化交易所)?

    西安链酷科技

    出海舆情监测网站选型必须考察的8个关键要素

    沃观Wovision

    舆情监测 舆情监测网站 出海舆情

    从数据噪音到商业信号:专业海外舆情分析服务的价值转化路径

    沃观Wovision

    舆情分析 舆情监测 海外舆情

    区块链 NFT 项目的上线

    北京木奇移动技术有限公司

    区块链开发 软件外包公司 web3开发

    交易所开发Java交易所RWA交易所开发不动产上链发行app开发公司

    西安链酷科技

    助力企业构建 AI 原生应用,函数计算 FunctionAI 重塑模型服务与 Agent 全栈生态

    阿里巴巴云原生

    阿里云 Serverless 云原生 Function AI

    中国燃放生命健康国际创新研究院揭牌成立

    科技汇

    2026版出海舆情监测网站选型白皮书:四大核心维度评估模型

    沃观Wovision

    跨境贸易 出海 舆情监测网站 出海舆情

    效率提升300%?海外数据筛选的三大核心策略与一个被忽视的技巧

    沃观Wovision

    数据 数据提取与筛选 海外数据与筛选

    重磅认可! 绿盟科技荣获 2024 年度北京市科学技术进步一等奖

    科技经济

    即时通讯软件泄密不止,国产化企业IM软件BeeWorks保证企业数据安全

    BeeWorks

    即时通讯 IM 私有化部署

    平台亮点 | 数据堂位姿标注工具:助力具身智能理解真实世界

    数据堂

    人工智能 数据标注 标注平台 具身智能 位姿估计

    如何在DApp中实现DAO功能?去中心化治理开发详解

    西安链酷科技

    海外数据筛选实战指南:从杂乱信息到精准数据的五步法

    沃观Wovision

    数据分析 数据 海外数据与筛选

    电商图片搜索:技术原理与商业落地场景深度解析

    Noah

    微预约影楼版小程序系统:高效赋能摄影行业预约管理

    微擎应用市场

    互联网云签电子合同小程序:高效便捷的数字化签署解决方案

    微擎应用市场

    KubeEdge 1.22.0版本发布!边缘资源管理能力提升!

    华为云原生团队

    云计算 容器 云原生 边缘计算

    数据分析案例详解:基于smardaten实现智慧交通运营指标数据分析展示

    数睿数据

    Java 后端

    百度智能云发布新一代昆仑芯和天池超节点,打造最硬AI云

    新消费日报

    大模型幻觉挑战凸显,企业级应用如何破局?

    EasyLink_ai

    人工智能 OCR rag 大模型幻觉

    极客说|Phi-4 模型的 4 位量化与 vLLM 高速推理_微软_微软中国MSDN_InfoQ精选文章