自去年 11 月底正式发布以来,OpenAI 最新的 AI 聊天机器人 ChatGPT 火出天际,成为现象级应用,在全网话题度狂飙。
瑞银发布的研究报告称, ChatGPT 推出后,今年 1 月的月活跃用户估计已达 1 亿,成为历史上用户增长最快的消费应用。
自 ChatGPT 走红后,全球互联网大厂、创业公司纷纷加码布局,一场关于 ChatGPT 的军备竞赛已然拉开。那么,这类大语言模型到底有什么魔力能让全网沸腾?是否参数越大,大模型就越智能?大模型当前面对的技术挑战是什么?突破口又在哪里?我们又该如何降低算力成本?
近期,InfoQ 有幸邀请到了澳大利亚国立大学计算机科学研究学院荣誉教授,AIXI 模型(AGI 学术圈内有望达到通用人工智能的模型之一)的提出者 Marcus Hutter,华院计算技术(上海)股份有限公司董事长、创始人宣晓华,共同探讨大模型的现在和未来。
以下为访谈实录,经编辑。
InfoQ:很高兴有机会能采访到您两位,能向我们的读者介绍下您自己吧,先从 Marcus 教授开始吧。
Marcus Hutter:我叫 Marcus Hutter,教育背景是物理、计算机科学和数学。在尝试了几种方向之后,我从 2000 年开始专注于通用人工智能(AGI)的研究。最开始的 6 年是在瑞士一家名叫 IDSIA 的小型研究机构工作。之后我在 2006 年搬到了澳大利亚,并在澳大利亚国立大学任人工智能教授。我的研究重点,主要是通用人工智能的数学基础。
InfoQ:最初接触 AI,是什么激发起了您研究这门科学的兴趣?
Marcus Hutter:我之所以对这个问题抱有兴趣,是因为 AI 有很多实现方法,而每个人都在摸索和尝试。人们想要用优化、学习和规划等种种方式解决问题,但时至今日关于“智能”的定义仍不明确。智能、超级智能、通用智能究竟是什么?这些问题始终没有答案。
在我看来,也包括在大多数人看来,在学科中深入摸索的前提就是掌握坚实、严谨的数学基础。但这种基础在 AI 领域尚不存在。所以我希望能从数学层面定义什么是智能。我给出了一个定义,也是我自己发现的唯一合理的定义。即使是在 20 年之后,它仍然经受住了时间的考验。很多人觉得智能是个非常艰深复杂的概念,但复杂的现象往往可以用非常简单的形式来把握。我就证明,智能确实能用非常简单的形式来把握。
InfoQ:那宣老师您这边能否介绍一下自己过往的经历,包括创办华院计算背后的故事?
宣晓华:我自己是学数学的,本科、硕士、博士都是学习数学的,研究生阶段主要就开始侧重于算法。算法当然已很久,比如 2000 多年前就有算法。 算法是一个重要的研究领域, 同时又可以有应用。 我在博士毕业以后先是去做了跟电路仿真有关的算法,这些算法更偏是科学计算。
到了 97 年我回国之后,尤其到 2002 年我开始创办这家公司时,我更多关注基于数据的算法, 并创办了华院计算。
华院计算是一家以算法模型为核心的一家公司,我们研究算法模型,同时推动算法模型尤其是人工智能在不同行业应用场景中的落地,最终使行业更加智能化。
即使没有重大突破,目前的 AI 也有望在某些领域完成 50%的人类工作
InfoQ:相信您二位也注意到了,从去年年底至今,以 ChaGPT 为代表的 AIGC 大模型火爆异常,您二位是如何看待这波 AIGC 浪潮的?
Marcus Hutter:我得说,这些语言模型确实令人惊叹,实现了意想不到的突破。所以这套 Transformer 架构似乎就是正确答案,能够把握住建模数据中的依赖项和关联性,具有正确的归纳偏差。我觉得其实没人能真正说清这些模型为什么效果这么好。
我想说的是,只要使用一个个 token,它们就能帮助大家以前所未有的水平提取上下文信息。至于你刚刚提到的那些大语言模型,比如 ChatGPT,它可能有上百个层,对吧?而且它们能做的不只是输出语法正确、语义正确而且有实际意义的文本,更能给我们的问题提供正确答案。所以这里的奥秘绝不仅仅在于语法和一点点语义。一定在某种形式的理解发生在了中间层上,对吧?只要提供原始文本,它就能用某种方式将其转换为更加抽象的表示。最终,质变就这样产生了。这个抽象表示随后可以被翻译成英文或者各种语言的文本。
在中间某个环节上,一定有一些高质量的推理。更让人惊奇的是,它甚至还能编程,简直让人难以置信。毕竟闲聊还是相对简单,里面需要的推理部分不太多,系统只要在 100 毫秒后回答我提出的问题就行。闲谈就是这样,能在几乎不自觉的情况下推进展开。但对于那些更为复杂的主题,大语言模型甚至能够完成某种形式的数学推理。这一切都发生在中间层上,这非常值得关注,特别是这些模型具体是如何做到这一点的。总之,大模型的实际应用效果令人惊叹,我愿称之为一场出人意料的革命。
当然,它们并不完美,也会产生幻觉。有时候,它们连初等数学都做不好……但这最多说明它们还不适合在关键的安全场景下使用,对吧?我们暂时还不能用语言模型控制火箭,或者不经检查或规划就按它的建议做严肃的诊疗操作。
但对于其他容错率相对更高的领域,那就没问题。比如说用于问答的聊天框,用它总结文本内容,根据提示词生成电子邮件,还有在法律场景下浏览案例并找出相似判例、借此帮助律师节省时间精力等。我知道,最近其实出了个反例……AI 捏造证据但律师没做检查。另外,这些模型能搞定的还不止是文本,甚至能在图像场景下有所作为。在我看来,它们的作品比一般人甚至是某些艺术家还要好。这肯定会将社会产生巨大的影响,而且即使在技术逻辑层面再无进一步突破,这项技术也已经具备了广泛的应用空间。我的预测是,接下来现有 AI 系统可能会变得更安全、更可靠。即使再没有重大技术突破,它们也有望在某些领域完成目前人类办公任务中的 50%,所以必然会带来巨大的生产力提升。
另一派则会强调,技术在消灭旧岗位的同时,又会创造出新的岗位,我觉得这样的观点不一定对。我觉得最本质的点在于,岗位的意义就在于创造商品和服务。当然,其中也有其它要素,比如工作带来的成就感之类。但老实说,大多数人、甚至 90%的人是因为迫不得已才去工作,跟热爱完全不沾边。另外 10%的人可能两者兼有,既是为了赚钱、也是因为喜欢工作内容。
如果用机器取代掉这些工人,那实际产出的商品和服务也仍然相同,那么整个社会的富裕程度也没有变化。最后留下的,就是如何更公平地重新分配这些服务的问题。我想说的是,对多数上班族来说,最美好的事情就是“失业”。不用上班,但商品和服务的生产仍在继续,社会把这些成果以普遍基本收入的形式做分配。所以我们还是可以拿到属于自己的一份社会财富。到那个时候,会发生什么?这肯定是个理想化的场景,但可以拿来讨论。要么我们的失业率越来越高,但全民基本收入也达到很高的水平,再具体调整收入水平来确保仍有一部分人愿意为了再多拿收入而继续工作。或者,我们可以缩短工作时长和退休年限,甚至可以继续每周工作 40 小时来产出更多的劳动成果,让整个社会变得更加富裕。
同时,我们必须得在不严重影响业务规模的前提下,对 AI 技术进行监管。转变要一步步来,期间总会有人遭受损失,但要保证这只是一小部分人遭受损失。我们可以提供更高的全民基本收入或者其他形式的补偿。这样从结果来看,大家实际都没有蒙受损失,每个人都会过得更好。
InfoQ:宣老师您认为为什么会有那么多人关注 AIGC 或者 ChatGPT?
宣晓华:引发关注的原因是因为 ChatGPT 的智能程度超乎了人们的预期。在它出现之前,人们认为人类语言这件事对于计算机来说很难完成,ChatGPT 在语言层面的输出基本上可以到达跟人类似的程度,在图灵测试意义上这是一种机器具备智能的表现。图灵测试是用语言来测试一个机器具备智能的方法。
第二点原因是因为 ChatGPT 的使用门槛很低,是个很好的人机交互方式,而且它可具有趣味性。
第三点原因是在 ChatGPT 表现出了语言层面的智能后,人们开始想象它是否也具有较高的认知智能,是否掌握了思维规律。实际上 ChatGPT 这类大语言模型应该没有掌握思维规律。ChatGPT 只是掌握了语言的规律。但这也是个很大的进展,所以才会引发如此大的关注。
就如当年人们得知 AlphaGo 会下棋一样,也会对此产生兴趣。
InfoQ:您是否也赞同 Marcus 的观点,认为人类大部分工作都是可以被 AI 替代的?
宣晓华:我也认为,将来会有很多工作可以交给 AI 来做,包括许多需要高智商的工作。 人工智能的目标本身就希望机器能实现许多人能做的事。 每次工业革命都会产生失业问题,但是后来都消化掉了。
AIGC 带来的这次技术革命的影响规模可能更大。未来会如何,怎样应对需要技术领域和社会领域的学者来思考,也需要政府去重视。
国内外也有不少研究 AI 伦理的机构,大家都在积极思考和讨论对策。
模型不一定越大就越好
InfoQ:所以很多企业看到了 AIGC 或者大模型带来的机遇,都在积极拥抱大模型。究竟什么样的模型可以称之为大模型?是否意味着它的参数越大,它就越智能?您二位是怎么看待这个问题的?
Marcus Hutter:一般来说是这样,就是说数据越多、参数越多,这样的训练出来的人工智能,比如说会更自然一些。那么这个是对的,这种或者相对来说是对的,但是方法论的突破真的是更重要的。
至于到底什么样的模型可以称之为大模型,我觉得可以理解成“我们到底需要多大的模型”。那我们人脑中有多少个神经元和突触?
人们总是以为,要想达到与人脑相当的智能水平,神经网络就能拥有同等数量的神经元和权重参数。但即使是 GPT-3.5,它的规模也就相当于人脑的千之一。还有 GPT-4,虽然没人知道它到底有多少参数,但猜测可能在 1.5 万亿左右,仍然只是人脑的百分之一。
另一方面,如果用用这些大语言模型、询问它们已经掌握的知识,就会发现它们知晓的反倒相当于人类,包括关注特定领域的人类专家的 100 倍甚至 1000 倍。但问题是,知识渊博和聪明并不是一回事,需要做出明确的区分。
我可以记住电话簿上的所有号码,这确实是掌握了大量信息,但也不能改变我很笨的事实。或者,很聪明的人或者 AI 也可能在特定的某个问题上“翻车”。无论如何,知识渊博只代表着信息的储量。这些模型虽然只相当于人脑的百分之、千分之一,但在某些方面却已经超越了人类。这就表明模型并不一定是越大越好。
问题还有另一个层面,就是作为人类,我们能够通过网络、书籍等查找自己不知道的东西,并把它放在临时记忆当中。我们会稍微思考一下,利用这些知识解决了眼前的问题后,很快再把它忘掉。但也有些知识需要在神经元中经过某种形式的处理,也就是推理。所以我可能会一时忘记怎么做加法,不过查找之后又能学会。当然,出色的数学家是不会这样边学边解题的。总之,有些东西就是通过这种不断处理的方式呈现,这就是推理。
但问题是,现在有了新的语言模型,它们能够查询互联网上的数据库。那这些模型具体需要在神经网络里存储多少知识?又有多少知识通过互联网的数据库即时检索就行?毕竟不是所有知识都得放进模型之内,对吧?相对不重要的随用随查更好。所以最终,也许我们会迎来更多模型,它们的推理能力相同但体量更小。还有其他一些模型瘦身技术,比如蒸馏神经网络,它们规模小得多但性能基本不变。所以五年前的我会觉得把知识存进数据库、再从中提取权重参数的作法根本就没有效率而言。但事实已经证明,这种思路不仅有效,而且在很多问题上的效率能达到人脑的 100 倍。
所以,也许我们应该考虑把所有知识都放进神经网络的训练过程当中,让它拥有真正的“大输入”。包括一切无聊的事实,贯穿整个神经网络。因为不知道为什么,这种看似更笨的办法反而更有效,而且让模型具备了推理能力。所以我们也许可以试着让它变得更大。五年前的我觉得应该把神经网络的规模控制在一定程度,其他事实通通放进数据库。但现在我也不确定了,我觉得两种方式似乎都有可行性。所以这事怎么说怎么有理,未来的模型会变大还是变小,我真的不知道。
总之,目前限制 AI 发展的主要是推理能力,其推理水平仍然有限。虽然大语言模型带来很多令人惊喜的表现,但在数学方面也经常犯低级错误。它们还没好到那个程度,所以要说现在的大模型还有哪方面缺失,那就是单纯记忆之外的深度推理。这才是我们需要改进的方向。
宣晓华:在语言上处理上, 我们看到了目前的大模型方法, 基于大量的数据,通过增大模型参数量, 已经到了非常高的水平。但是智能毕竟还有其他的,比如我要规划一件事情,我要理解一件事情,我要很多的推理决策,那么这些到底是否只要不断的给数据就能解决呢? 我是有问号的,需要融合和发展其它方法,如“小数据方法”。我们人类获得大量知识,推动科技发展都不是靠非常多的数据来做的,而是靠不断地引进概念、通过演绎来进行的。所以认知层面的东西我认为是非常重要的。没有在方法上改进,完全靠扩大模型参数数量, 很难达到更高的智能层次。
在行业应用上,由于有时数据相对很少, 大数据模型会没法应用。 需要把数据和行业知识,专家经验结合起来,我们用这样的数据和知识像结合的模型方法很好地解决一些工业领域的智能化问题。
华院计算在积极发展认知智能引擎,让机器具备更多的推理,规划和决策能力。
InfoQ:在大语言模型爆发后,业内有一种声音认为 NLP 已死。甚至在 ChatGPT 诞生的那一刻,NLP 就已经宣告灭亡了。你们同意这种观点吗?
Marcus Hutter:没错,我完全同意这个观点。我从来不觉得处理语言需要构建显式的语法规则等等。虽然这种方式也有效果,但它能解决的只是语法层面的问题。还有语义呢,语义那边又有另一种形式。其实我们很早之前就在传统研究中尝试过这个思路,一切都在专家系统中预先做编程。当时的研究人员尝试从医生等专家群体中提取知识,但这事是很难很难的。之后把提取的内容转化成规则,再做逻辑推理,这样虽有一定效果、但耗费的人力太过巨大。
这种方式曾盛行一时,但现在的新思路是直接在数据之上训练系统,让系统自己理解该如何推理。而且似乎只有朝着这个方向走,将最小的先验偏差引入系统。而目前来看,先验偏差似乎就是 transformer 模型中的注意力机制。先设置一些层,然后用大数据做训练,由此产生的语言模型就成了基础模型。它们能逐渐掌握语法和语义,最后甚至能把握住推理的诀窍。就目前来看,恐怕已经没有哪种经典语言处理系统能够跟 Transformer 相匹敌了。
InfoQ:看来 Marcus 是很认同这一说法的,宣老师您赞同吗?
宣晓华:大语言模型通过数据和算法基本上掌握了语言的规律,完成了许多 NLP 的工作。另一方面,也有一些工作是大语言模型没有做好的,譬如大模型是不知道输出的句子是真或假的,所以大家说它会有时“一本正经地胡说八道”。 大语言模型的时间还很短, 不适合下绝对的结论。
自动化数据标注可能为大模型带来新突破
InfoQ:众所周知,在训练大模型时数据都是必不可少的要素,有句话叫 garbage in, garbage out。要用经过标注和清洗的数据来训练大模型才能取得良好的效果,但我们如何能获取经过标注和清洗的数据?是相应语种的公共开源数据库吗?
Marcus Hutter:那肯定是来自互联网了。互联网上有很多非结构化数据。你问的是具体的标注数据吧?传统上,数据标注一般都采取外包的形式,这样就能提供大量经过标注的数据素材。但最近出现了新的有趣趋势,即自动获取标注数据,这是种有趣且相当聪明的办法。大概的作法就是直接用 GPT-4 之类的大模型,让它对数据本身的标注做分类,然后再用另一套模型来检查标注的质量如何。
期间偶尔也需要一点人类反馈,相当于做监督。这样我们就能大量创建人工数据,这些高质量的模型能帮助我们启发出更多小模型。其实我不太清楚现在能不能用顶尖模型生成的数据,训练出新的更强大的模型,或者说这种方法只能用来改进较小的模型。但无论如何,这都是件好事。我们可以用成本高昂的 GPT-4 创建新的标注数据,再用这些额外的数据训练出相对较好的小体量模型。沿着这个思路,我们甚至有可能突破极限、让语言模型达到新的高度。
至于图像方面,其实市面上已经出现了一些技术,能够用各种方式复制图像并通过转换来创建新数据。
计算成本则是另一个长期困扰我们的问题。大语言模型的训练成本非常昂贵,而且我们创建的数据越多,它的训练成本就越高,甚至逐渐逼近人类所能承受的极限。所以也许创建更多标注数据,并不是改进模型的最重要、或者最有前途的方向。也许改进架构才更重要,让它们能利用有限的数据高效完成学习。我的意思是,我们人类在训练中需要的数据量是语言模型的百分之一甚至千分之一,但在很多方面仍然比 AI 系统更智能。也许会有新的方法,能在系统获得智能的同时大大减少数据需求量。我们可能需要找到更好的算法。所以我认为这才是一段时间内更有前途的方法,而不只是拼命创建更多的标注数据。
InfoQ:我注意到您提到了数据是来源于互联网的,它有一些是公开数据,那怎么能保证数据的公平没有偏见,或者是有什么样的数据处理方法呢?
Marcus Hutter:所以很多时候还是需要人的参与,如果你需要这些公平、没有偏见的数据,就还是需要人类来做。现在当然也可以通过计算、通过另外一个算法来检查这些数据是否是正确的、无偏见的。某种意义上这往往需要另外一种方法。
InfoQ:那现在这样的方法已经很成熟了吗?
Marcus Hutter:目前没有那么成熟,但是我觉得这肯定也是大家需要做的一个方向,但是人的参与肯定是必须的。包括在目前为止,ChatGPT 在训练方式里面去做 prompt,后来还有一些强化学习都是需要有人参与的。
后 AI 时代,该如何降低算力成本?
InfoQ:大语言模型的训练成本的确非常昂贵。那您二位认为这会不会把很多初创企业挡在了大语言模型之外?毕竟成本过高,他们根本就无法承担。未来的大模型会不会成为谷歌、微软这类巨头间的专属游戏?毕竟他们财力雄厚,有能力训练自己的大语言模型。
Marcus Hutter:直观判断确实是这样,但只要还有大语言模型在公布自己的源代码和权重参数,那巨头之外的社群就仍有希望,虽然训练成本仍然摆在那里。
其实在训练完成之后,推理过程也成本不菲,但现在的新发展已经让语言模型能运行在笔记本电脑上。所以只要技术巨头愿意发布权重参数,比如 Llama 就是首个发布权重的大语言模型,那即使是缺乏算力和资金的初创公司也可以据此构建起自己的应用。他们可以对模型做微调,可以进行上下文学习,也可以通过多种方式借助适当算力使用这些预训练模型。所以即使是在这块巨头主导的市场上,仍然不乏百花齐放的勃勃生机。
当然,我们也可以假设科技巨头们突然就不再公布权重了,那我们也可以通过众包的方式建立自己的训练网络。其实这就是开源的典型运作方式,人们既做贡献、也享受贡献成果。而且大家还可以把自己闲置的计算机算力贡献出来。当然,我知道语言模型本身很复杂,涉及海量数据之类。
所以必须承认,我还没彻底想清楚。但我觉得……也许小型初创公司可以汇聚起来并共同训练一套大模型,并以此为基础各自建立特定应用。而且没必要太悲观吧,至少目 Meta 等还是在公开发布自己的模型成果。所以我不怎么担心情况会走到那一步。有些人反倒觉得目前小规模初创公司在占据优势,毕竟他们更敏捷、也更乐于承担风险。他们调整应用思路的速度快得多,而且具有别样的经济优势。这种各有生态位的现实,也许平衡了巨头和小公司之间的共存关系。
InfoQ:宣老师您如何看待这个问题?
宣晓华:目前训练一个预训练模型需要上千万甚至上亿的成本。作为一家小公司,就不一定去做这种大的预训练模型。但小公司可以在这些大参数的模型基础上做微调,也就是可以限制一部分参数不动,围绕某一垂直领域调整小部分参数,只调整了模型一部分参数,而不是从头开始做,所以它的成本相对就比较低了。
有了这个模型以后,真正应用的过程中,它还是要计算算力的,但这个算力比运行预训练大模型需要的算力要小得多。所以从这个层面来看小企业也有很大的生存空间。另外,垂直领域也更容易把领域知识结合进来,很多时候这样才能解决领域和行业中的问题。 我相信这会是一个现象,未来可能有很多企业针对某一领域去做领域模型。垂直某一领域,往往比做通用大模型更容易成功。
Marcus Hutter:宣教授提到了领域大模型,我也想就这一问题补充点内容。其实有个问题你一直没提到,就是目前我们已经拥有非常精确且非常可靠的数字计算机,但它们所运行的神经网络却可靠性很低,并不需要那么高的精度。以神经网络为例,它需要的根本不是高精度浮点运算,在某些系统中 4 bit 就足够了。哪怕是拉低精度,这些神经网络的表现仍然不大受影响。这就产生了巨大的错位现象。我们生产的是极为精确、极为可靠的计算机,但却用它来计算根本不需要这种精度和可靠性的任务。所以有些人开始关注模拟计算。其实很久之前、在我爸爸那个时代,模拟计算就已经很流行了。而它与神经网络之间的结合,就是矩阵乘法。这类运算只需要很低的精度,即使有点误差也没关系。在矩阵乘法中,计算内容就是最简单的乘法和加法。只需要电阻、晶体管和电路,就能轻松模拟这类计算。
所以如果我们将数字乘法数组跟简单的模拟乘法相比较,就会发现模拟的难度要低得多。虽然也存在一些技术难题,但我觉得这些都能解决。出于种种原因,现在我们仍在以数字方式训练这类模型,并在训练完成之后加以运行;但如果换个思路,也许我们可以用专门设计的模拟硬件来承载特定的训练方式。
没有学习过程,就不会有如今的大语言模型。虽然我的专业领域不在这里,也没做过具体计算,但我相信未来应该可以用千分之一的能耗和芯片单元运行同样的训练任务。所以未来的语言模型可能会运行在我们的智能手机里,只需要一个 CPU、一个 GPU 和 GPT-4,就能完成模拟预训练。之后推理成本也能降至千分之一,彻底廉价化。但很遗憾,芯片的设计往往被把握在少数大企业手中,所以这事也没那么容易。但只要这些芯片出现,推理的成本确实可能大幅下降,我认为未来应该会朝着这个方向发展。
算力它还是可以改进的。即使使用原来的算法结构,但稍微做一些改变,也许可以把算力降很多,这是完全可能的。
InfoQ:是的,您提到了硬件在巡览大模型中的重要性。我听闻英伟达最近推出了一款超级芯片,叫做 GH200。这是专为生成式 AI 打造的一款超级芯片。那是不是说,我们以往用于构建 AI 的芯片已经过时了?
Marcus Hutter:没有,至少目前还没有过时。
不知道你指的是通用 GPU 芯片还是其他特定芯片。毕竟每过几年都会有新一代芯片出现,那上代芯片确实也算过时了。但我觉得你指的应该是生成式 AI 中的 GPU 或者 TPU 这类架构,那我觉得它们没有过时。我有种感觉,也许在训练过程中稍微提高点精度,就能在推理阶段容忍更低的运行精度。所以也许我们可以在训练过程中引入模拟计算,可能是在不久的未来,但模拟计算的应用场景应该会越来越多,对吧?
又或者,我们会使用更加专业的芯片,甚至超越了 GPU。具体是怎么样我不清楚,从长远来看也不重要,毕竟要解决的实质性问题就是矩阵乘法运算嘛。目前的方案主要靠 GPU,但我猜英伟达应该会推出新技术,毕竟他们最擅长的就是这个。所以现在的数字化方法不会消失,而是不断增强。
InfoQ:所以您也认为 Marcus 谈到的模拟计算会是个很好的探索方向吗?
宣晓华:是的,我觉得 Marcus 讲的是一个很好的点,我之前没有往这方面思考过。但是他讲到这个事情,我觉得是有可能在未来实现的。现在我们使用的是数字计算机,但模拟计算机能够在某些特定的地方进行模拟计算,效率更高、成本更低。这可以成为以后积极去探索的一个方向。
大模型未来发展趋势
InfoQ:其实之前很多项目备受关注是因为它们都是开源的,人人都可以部署。但 ChatGPT 这类大模型自问世以来就走的是关于闭源的路线。两位觉得大语言模型未来的发展趋势是开源还是闭源,或者说像 GPT-3 那样只是部分开源?
Marcus Hutter:这个事情很难讲,我猜有些公司比较支持开源,而另一些公司则选择闭源。情况向来如此。就目前来讲,大家还都是比较开放的,但已经出现了回归封闭的迹象。我猜最后应该是两者兼而有之吧。最终应该是开源模型表现不错,闭源模型相对更好,但也强不了太多。
在这样的情况下,那谁也没必要藏着掖着。只要市面上仍有高质量的开源模型存在,就会鼓励其他人也加入到开源中来。到时候肯定也有一些拒不开源,但我觉得都没关系。
宣晓华:目前两种情况都有,目前这些大模型发展时间还很短,也会涉及很多问题,包括大模型的治理、安全性等问题。但我判断未来开源模型占主流的概率更大一些。
但对于以大模型为主要商业模式的企业来说,去开源大模型并不容易,因为其他公司很容易得到技术细节,对其本身也是个竞争。
。
InfoQ:那宣老师,在您看来,国内市场的大模型厂商和产品数量未来会越来越多还是越来越少?
宣晓华:在我看来,类似于 ChatGPT 的这种通用大模型的产品不会太多。就像互联网似的,做通用搜索引擎的没有几家。但垂直领域就不一样了,只要它在某一领域内有很多高质量数据,并结合其它方法,它可以有一款更优的模型,那么它可以在那个领域发展起来,这类企业会很多。
InfoQ:那两位认为,大模型接下来有哪些值得关注的发展趋势有哪些,可以是技术上的,也可以是行业向的?
Marcus Hutter:在短期内,主要方向就是工程层面的成本控制吧。只有把训练和推理的成本控制在足够低的水平,才能让它具备广泛应用的可能。这应该是未来几年内的主要发展方向。
而从长远来看,在技术上我们需要更高的推理能力。为此,我们需要找到更多的架构选项。其实最新的架构成果已经是七八年前的事了,也就是 2017 年的 Transformer,而现在我们才刚刚发掘出它的潜力。从科学角度来看,之后就再没有真正重量级的改进了。而且我觉得光靠 Transformer 不足以实现通用人工智能。架构层面应该还要有点新变化,比如说在推理方面,至少要能实现较好的可重现性。我知道思维链能在一定程度上解决这个问题,还有其他一些方案,但总体来讲这些都不能算是理想的终极解法。
所以我觉得需要探索更多架构可能性,让 Transformer 找到更好的推理方法。另一个重点就是规划,或者说强化学习。比如说基于人类反馈的强化学习,简称 RLHF,就是用这种方式建立的语言模型。这类模型已经能够玩转国际象棋之类复杂的游戏,但真正的通用人工智能应该能玩转所有任务。所以我们需要在这些预测模型之上更进一步,引入一些适当的规划、顺序决策理论、强化学习之类。对于这些科学思想,我们肯定需要以某种方式把它们组合起来,这就要求我们找到更多架构选项。
宣晓华:我觉得现阶段,增强大模型的鲁棒性、可信性是非常重要的。因为现在大模型会“莫名其妙”地出错,虽然它出错比例不一定很高,但因为这种不太可控的出错, 在很多应用场景时会有问题。
第二个就是我认为还是要在推理和规划上多下功夫。如果能在大模型之上实现很好的推理和规划,那么它就有可能实现与人类类似的通用智能能力。
采访嘉宾:
宣晓华,华院计算技术(上海)股份有限公司董事长、创始人
Marcus Hutter,澳大利亚国立大学计算机科学研究学院荣誉教授
嘉宾征集:
什么是技术情怀?在很多人看来,是热爱、是思考、是卓越。这个时代或许有人功利、或许有人内卷,但我们依然愿意相信更多人依然怀揣着用技术改变世界的初心。《The Great Geek》(了不起的极客)是 InfoQ 重磅推出的全新内容栏目,全年共 8 期。自栏目推出至今,我们专访了 MySQL 数据库和 Maria DB 创建者 Michael “Monty” Widenius、ClickHouse创始人及 CTOAlexey Milovidov、iPod“之父”Tony Fadell、Thoughtworks 全球 CTO Rebecca Parsons、《代码大全》作者 Steve McConnell,如果你身处的企业中有这样的技术领袖想让我们报道或你希望看到哪位技术大佬的采访,请在评论区留言联系我们。
评论