OpenAI 新一代模型在性能提升上的表现未达预期,尤其在编程任务中的改进幅度有限。这是否意味着大模型的性能提升已进入收益递减阶段?国内外技术条件是否存在差异?在模型规模不断扩大的今天,“量变引起质变”的关键是什么?
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了百度主任架构师颜林、京东算法总监张泽华、中国科学技术大学特任副研究员王皓和华为新加坡研究所高级工程师郭威,在 AICon 全球人工智能开发与应用大会 2024 北京站 即将召开之际,探讨 AI 圈近日热议话题——Scaling Law 是否“撞墙”了。
部分精彩观点如下:
未来的突破点在于获取更多高质量语料。
卷应用,不卷大模型。
当前大模型的能力仍无法满足许多实际需求。
由业务驱动的大模型应用正在快速发展。
大模型发展的最终目标是拓展人类能力、改善生活。
在 12 月 13-14 日将于北京举办的 AICon 全球人工智能开发与应用大会上,我们特别设置了【大模型应用架构的探索与实践】专题。在该专题中,多位业界资深专家将分享他们在大模型应用中的宝贵经验,深入解析大模型在产品设计中的架构模式与方法论。同时,将探讨如何应对大模型在实际应用中面临的挑战,如成本控制、性能优化、效果提升及效率提高等问题。
查看大会日程解锁更多精彩内容:https://aicon.infoq.cn/202412/beijing/schedule
以下内容基于直播速记整理,经 InfoQ 删减。
完整直播回放可查看:https://www.infoq.cn/video/6H6uz1Svs7TKN8ep0r8D
Scaling Law 现状探讨
颜林:近期关于大语言模型在 Scaling Law 方面遇到瓶颈的一篇报道引发了广泛关注。大家对此怎么看?在当前技术和资源条件下,LLM 的性能提升是否已进入收益递减阶段?
张泽华: 这篇报道核心观点是通过观察逻辑推理能力的增长不够强劲,便判断大语言模型已经遇到瓶颈,这种结论不够全面。因为我们最近也看到了很多来自斯坦福和麻省理工学院等机构的研究。以这些研究为例,他们发现同样的基线模型,在输入格式发生变化时,逻辑推理能力会有所提升。例如,将相同内容从 Markdown 格式改为 JSON 格式,模型的推理能力便得到了增强。
这侧面证明,模型本身的参数没有改变,而仅仅是 input token 格式的变化,便显著影响了模型的理解能力和推理能力。这也进一步表明,我们可能并没有真正撞到瓶颈,问题可能更多出现在输入设计、训练过程以及未来输出设计方面。
王皓: 我认为 Scaling Law 目前虽未真正遇到瓶颈,但收益递减的现象非常明显。尽管堆积了大量数据和算力,但相比初代模型,提升幅度明显变小。例如,GPT-4 相较 GPT-3 的改进很大程度上得益于语料质量和数量的提升,但随着高质量数据的消耗,GPT-5 等模型的边际收益已逐步递减。
目前许多研究更多聚焦于 post-training 阶段,而在 pre-training 和 SFT 阶段,提升效果有限。我认为,未来突破的关键在于发现新领域的数据和知识,而不仅仅依赖现有语料扩展,否则瓶颈和收益递减趋势将更加显著。
郭威: 从推荐系统的角度来看,虽然 ChatGPT 已推出近两年,但 Meta 今年发布的论文首次揭示了推荐系统中的 Scaling Law,展示了万亿参数模型的潜力。实验显示,参数量增加到百亿甚至更高时,确实有显著收益。然而,实际工业应用中,推荐系统的网络参数通常不到百亿,因为最终需要考虑 ROI。根据我们的测算,当前推理成本与收益限制了大模型的参数规模。未来两年内,推荐系统中大模型的参数量可能仍维持在百亿以下。从长期来看,推荐系统中应用大模型的潜力依然巨大,尤其在资源系统优化后,Scaling Law 的收益预计仍可持续 3~5 年。
颜林: 我最近也看到一篇报告,探讨大模型是否能持续扩展到 2030 年。首先,他们观察到过去几年大模型训练的计算量平均每年增长 4 倍。按此趋势推算,到 2030 年训练计算量可能会较当前扩大 4 个数量级,即增长至约 1 万倍。这意味着未来的 AI 模型,与当前最强的 GPT-4 相比,将达到类似 GPT-2 到 GPT-4 的巨大跃升,展现出强大的潜力。
不过,报告也指出会遇到诸多挑战。例如,能源供给能否支撑如此庞大的计算需求?数据中心的电力、GPU 产能、数据传输的带宽与延迟,甚至高质量数据的获取,都会成为制约因素。
大模型“量变引起质变”的关键是什么?
颜林:在模型规模不断扩大的过程中,哪些因素是实现“质变”的关键?
张泽华:Scaling Law 的核心在于算力充分支持海量数据时带来的指数级性能提升。然而,随着算力逐步丰富,限制转向数据和能源。高质量语料的不足已成为关键瓶颈,而互联网生成内容的增多可能导致知识闭环,进一步限制模型发展。未来的突破点在于获取更多高质量语料。如果能解决这一问题,大模型有望迎来新的质变与飞跃。
王皓: 我认为 Scaling Law 的核心在于模型规模和数据维度,高密度、高质量的数据能显著增强模型的扩展能力。在通用模型中,Scaling 现象易于观察,但在特定领域如推荐系统中,传统的 Scaling 定义往往难以适配。关键在于找到影响 Scaling 的核心数据因素,并重新定义适用的指标。所以,我们正在探索如何通过量化数据质量来揭示推荐领域的核心影响因子,从而更好地利用 Scaling Law 的潜力。
郭威: 我们华为最近有个研究发现,用 2024 年开源模型的核心参数(如参数规模、网络深度、网络宽度)拟合大模型性能曲线后,竟能很好预测 2020 年的模型性能。这给我们提出了一个问题,大模型这 5 年到底取得了哪些进展?虽然难以回答,但其中有两个点是比较明确的,一是随着高质量数据的增多,模型规模扩大显著提升了性能;二是训练平台的完善,使得我们能够支持百亿、千亿级模型。
然而,未来训练更大规模模型仍面临基础设施挑战,如持续训练的稳定性、通信无误差等,这些将决定能否实现下一代大模型的“质变”。
颜林: 从我们的实际项目来看,高质量数据显然更为关键。尽管堆积算力和模型规模可以带来一定提升,但如果数据质量不足,效果难以达到最佳。例如,在生成式推荐系统中,虽然延长用户行为序列有助于提升效果,但真正的关键在于提取核心特征。这需要大量工业与工程工作来构建高质量的训练数据,从而实现业务目标。
颜林:追求量变引起质变的意义是什么?在突破所谓极限的过程中,行业会不会忽视了现有技术的优化和实际价值的发挥?
张泽华: 在推荐系统中,单纯依赖生成式模型(如直接基于用户行为生成推荐)在初期效果显著,但随着量级增长,它往往复刻用户的既往行为,难以提供新意。而结合传统的 CTR/CVR 判别式模型,协同后的效果通常优于单一模型。而在非应用场景测试中,我们尝试将用户长时间行为数据整合到生成式模型中,例如京东电商的商品描述、价格、评论等。然而,生成式模型由于记忆能力强,容易平均化结果,忽视近期行为的权重。而传统模型在建模用户行为时,近期行为占比更高,反而更贴合实际需求。
因此,在推荐系统中,仅依赖生成式或判别式技术并不足够。设计模型时,应平衡短期与长期行为,拟合用户的“遗忘”特性,使推荐结果更具人性化和实际效果。
王皓: 我从研究的角度补充一些看法。首先,大模型的多任务建模能力确实显著,但追求“一体化架构”和堆积算力并非长久之计。算力和数据的高效使用才是关键,我们发现,通过优化数据质量和挖掘用户行为模式,即使在小模型或基础架构上,也能实现显著性能提升。其次,在应用层面,大模型虽然强大,但在推荐系统等领域性场景中,表现未必优于小模型。使用大模型解决小问题的适配性和效率问题尤为突出。因此,我们设想一种方法:大模型生成领域特定的数据,再交由小模型处理,以此降低成本和推理负担,同时提升针对性的性能表现。
郭威: 推荐系统的发展经历了四个阶段:最初依赖逻辑回归进行手工特征挖掘,随后进入深度学习阶段,通过复杂模型设计提升效果。接着回归特征优化,如用户行为检索和交叉特征组合,在工业界取得了显著成效。如今进入第四阶段,即结合深度学习与 Scaling Law,通过扩展模型参数规模充分利用算力来获取更大收益。
然而,推荐系统的发展是循环迭代的。尽管算力优化目前显现出巨大潜力,但这可能只是一个阶段性的循环。当算力也无法再突破时,我们可能会再次回到特征、网络结构甚至数据的优化上。
颜林: 我们团队也在探索大模型与推荐系统的结合。Meta 发布的一篇论文讨论了如何用生成式模型改造推荐系统的召回和排序,实验显示,随着参数量增大,推荐效果提升。这种现象也在字节的论文中提到,数据量和参数量的增加会促进从量变到质变的效果。
然而,结合我们实际的项目经验,我更认同泽华老师的观点:高质量的数据更为关键。虽然算力的提升能优化模型,但没有高质量数据,效果就难以提升。以推荐系统为例,尽管序列长度越长可能带来更好的效果,但关键在于如何从中提取有效的特征和信息。因此,我们需要大量的工作来优化数据,确保其质量,才能在实际业务中看到更好的效果。所以,除了调度大模型外,整个系统链路和配套技术也同样关键。
颜林:未来的发展方向是否转向更复杂的推理任务?与其扩展模型的规模,是否会更加注重训练和推理阶段的深度优化?
张泽华: 在企业场景中,少数公司能承担无限制投入算力和数据的高昂成本。多数企业会选择预训练一个基座模型后,通过微调适配具体场景。而应用场景的实际落地才是更大的挑战。许多创业公司以工具类产品为主,例如对话机器人或图文生成工具,但其商业化能力仍存在很大疑问。
过去,许多企业仅通过向量数据库等简单方法整合知识,但实际效果有限,且知识库的维护成本高昂。未来,应用将更注重封装:从基础语言模型的知识增强,到与具体产品结合,再到更高层次的商业化场景开发。通过逐层封装,推理能力将不断拓展,应用端的创新将成为主要方向。这种应用驱动的模式或许是未来发展的重点。
颜林: 卷应用,不卷大模型。
王皓: 像 OpenAI 的 o1 模型虽然在推理速度上较慢,但它更多专注于后期的 post-training 阶段,而非前期的预训练。这可能是因为前期的收益逐渐减少,同时预训练所需的资源和成本极高。相比之下,优化推理阶段的应用显得更加务实。
从推理阶段的实际问题来看,当前的个性化能力仍有明显不足。通过整合用户历史记录或检索路径到推理过程中,可以更好地满足个性化需求。在推荐系统和广告等领域,这种基于推理阶段的个性化优化,可能为大模型的实际应用带来更多创新和价值。
郭威: 像 o1 这样的工作非常有意义,它通过延长时间来换取更高的精度,为我们描绘了 AGI 的未来潜力。然而,在推荐系统等应用场景中,我们更多关注的是训练和推理的效率问题。推荐系统对时延要求极高,通常只有几十到上百毫秒,这使得像 o1 这样的技术短期内难以实际应用。因此,我们的重点在于如何降低训练和推理的时延与成本,从而支撑更大规模模型的落地应用。
颜林: 我认为国内外在算力上的差距是显而易见的。国外如 OpenAI、谷歌和微软等公司,拥有强大的算力资源,能进行更复杂的推理和训练任务。而国内由于算力和资源的限制,我们更侧重于优化应用和用户体验。尽管底层模型与国外的先进技术有差距,国内的 AI 产品在实际应用中依然表现优异,特别是在年轻人中,这些工具类产品已经深入到他们的日常生活中。例如,在开学季,学生们会大量使用 AI 产品,到了假期使用量则下降,这表明这些产品在解决实际问题方面非常有效。因此,尽管算力有限,我们仍能通过提升产品体验来弥补这一差距。
颜林:就算 Scaling Law 遇到瓶颈,那在当前应用场景下,LLM 的性能是否已经能满足大多数需求?
张泽华: 当前工具类产品在很多方面仍不完善。例如,图像处理功能处理时间长且结果常不符合预期;语音识别在方言处理上仍有明显不足;逻辑推理类工具对复杂场景的理解能力较弱。此外,用户体验问题导致隐性差评用户流失严重。尽管在特定场景下已有一定可用性,但距离真正智能化和高逻辑性的应用还有很长的路要走。
王皓: 以科研为例,大模型在简单任务如文本生成和语法优化上表现良好,能满足日常需求。然而在复杂任务如逻辑推理、文献调研和流程化分析中,其能力仍有明显不足,尤其是在整合多篇文章内容或领域特定任务时表现较差。虽然单篇文章的理解和冷门领域文本解释能力较强,但在开放性和流程化场景中,大模型仍需显著提升。
郭威: 大模型发展有两方向:一是模型扩展,推荐系统参数从千万到百亿、千亿仍有提升空间,但实时推理限制实际应用规模;二是未来形态,或转向对话式交互。但在垂直领域如音乐、视频,大模型仍难理解用户需求,存在大量 badcase。需增强逻辑推理与垂直领域知识能力,仍有很大改进空间。
颜林: 关于大模型的能力,当前性能显然无法满足许多实际需求。例如,在自动驾驶领域,即便是 L4 级别的技术,人们对其完全信任仍有疑虑,甚至存在模型无法正确区分红灯与落日的 badcase,这说明算法的感知与判断能力仍需改进,或通过多模态大模型增强。
此外,在教育场景中,大模型虽可用于英语学习,如提供口语练习,但其难以像人类老师一样制定系统化的教学计划,持续高效地引导学生学习。大模型在多任务处理、长期学习和多模态融合等方面还有很大的提升空间。
大模型项目的“收益”如何衡量?
颜林:怎么定义大模型相关项目的落地是否“成功”?是通过业务带来了直接收益,或带来了很多用户,还是对行业发展的长远贡献?
张泽华: 我们内部有三个主要视角:从企业角度看,成功取决于投入与回报的比较。如果同样的资源投入在传统算法和大模型赛道上,大模型能带来更大的指标提升,则被视为一次成功的实践。或者,衡量大模型技术是否提升了工具的实用性或用户体验,尤其是能否显著提高工作效率。从前瞻性来看,如果传统算法的改进空间趋于饱和,而大模型技术在优化上更具潜力,能够突破传统路径的限制,那么资源投入到大模型中更具长远价值。这种选择虽然未必立刻见效,但能为未来打开更高的优化上限。
王皓: 我认为大模型的成功需要结合不同的视角来看。从用户的角度来说,大模型是否成功取决于它是否好用,能否满足用户的需求,并在特定任务中表现出色。不同领域的用户需求差异明显,例如,科研人员关注模型在专业问题上的准确性,而文案编辑更看重其内容生成的效率和质量。从企业的角度来看,评判大模型的成功与否主要取决于投入与回报是否匹配。企业投入了大量算力和资源,最终需要通过点击率、流量增长或收入回报等指标来证明其研发的价值。从技术层面来说,大模型的成功更多是看其性能表现,特别是在任务中的实际效果是否显著提升,例如通过 SFT 微调技术带来的优化。
郭威: 在工业界,衡量大模型成功的关键在于两点:一是线上效果,模型消耗算力是否能带来收益增长,若收益大于成本,投入才有意义;二是用户体验,用户是否认为模型好用,例如学生在解题中感受到模型能解决复杂问题,使用频率提高。此外,我们还关注大模型对国产芯片的推动,通过优化自研芯片(如 NPU)提升其在训练和推理中的表现,为行业提供更优质的支持。
颜林: 我的观点与大家类似,成功主要取决于两个方面。首先是商业价值,大模型是否能带来实际的收益或增长,而不是单纯消耗资源。如果它能通过提升产品效果、吸引新用户或增加收入,实现正向 ROI,那么它就是一个真正成功的产品,具备持续发展的能力。
其次是科学贡献。我期待大模型未来能解决人类未解的难题,例如物理或数学上的重大问题。如果大模型能破解黎曼猜想或实现大统一场论,那将是人类的一项伟大创造,甚至值得诺贝尔奖。这或许是一个远大的目标,但确实令人充满期待。
颜林:现阶段,在实际工作中,大模型项目的迭代是否更多受到业务需求的驱动?
张泽华: 作为商业化部门的一员,我关注大模型的业务收益。只有在明确看到价值后,我们才会投入资源。目前,大模型已广泛应用于召回推荐、文案生成、视频生成和广告竞拍等场景,这些复杂场景对性能要求极高,例如广告推理需在 100 毫秒内完成。同时,高质量数据对性能提升至关重要,但简单堆积数据效果有限,我们在数据处理上投入了大量精力。由业务驱动的大模型应用正在快速发展,成为企业内不可忽视的重要力量。
王皓: 工业界注重业务收益,而学术界更关注大模型的原理和架构优化。例如,为何某些架构能实现 Scaling,而另一些无法做到,这是我们研究的重点。此外,我们还关注大模型在推荐系统中的优化,如推理速度、数据依赖性及微调能力等问题,旨在揭示底层机制并推动模型更好地应用于实际场景。
郭威: 作为工业界的一员,我们的研究和落地始终围绕商业价值,既关注短期内能上线并带来业务提升的技术,也着眼于长期需求。我们推演了未来 3 到 5 年的推荐系统发展趋势,例如 embedding table 是否会从当前的 TB 级扩展到百 TB、千 TB,模型规模是否会达到 10B、100B。这些趋势要求我们关注分布式推理、训练,以及压缩加速等技术,这些都是未来的关键方向。
颜林: 大模型的发展与业务需求密切相关,二者相互推动。业务需求促使大模型不断升级,而新的能力又激发新的需求,形成良性循环。过去一年,大模型从语言处理扩展到多模态能力,如视觉理解和语音处理,未来可能加入视频处理,支持更复杂的场景,这些进展都是由实际应用中的需求推动的。我们也需要根据实际需求优化大模型,调整其规格和性能,以满足不同场景的需求。
未来展望
颜林:在当前瓶颈下,您认为 LLM 的发展应侧重于哪些方面的改进或创新?
张泽华: 我认为大模型的发展,最终目标是拓展人类能力、改善生活。无论是研究型还是应用型科技,都应关注其对人类生活的实际影响。我更关心未来 3 到 5 年内,大模型是否能在生活方式、知识边界以及工业生产等方面带来突破性改变。对此,我充满信心与期待。
王皓: 从学术角度来看,我对未来推荐大模型与语言大模型的结合充满兴趣。目前两者仍是相对独立的,但个性化问题与通用语言模型之间的 gap 如何消除,如何在实际场景中实现统一范式,是一个值得探索的方向。如果能够实现这一点,可能会颠覆现有的推荐系统形式和交互模式
郭威: 在大模型时代,算法从业者需要跳出单纯的算法或模型思维,转向更全面的系统视角。除了高质量数据的挖掘和模型优化,更要关注大模型系统的构建,如数据高效拉取、分布式训练的稳定性、线上高效推理等。这些都是让大模型真正发挥作用的关键点。
颜林: 作为工业界的一员,我认为降低大模型的成本是关键,只有不断优化,才能实现普惠化,让人人都能用得起大模型。同时,我期待大模型在扩展规模和增强泛化能力上带来涌现效应,例如具备解决未见过问题的能力。这种创新有望为复杂任务的管理和日常生活带来显著改善,帮助人类从繁琐的任务中解放出来,将更多精力投入到真正重要的事情上。
评论