写点什么

“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广

  • 2024-05-09
    北京
  • 本文字数:3421 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:42
“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广

作者 | 华卫

采访嘉宾|王文广,达观数据副总裁

 

GPT 爆火一年多后,无论在国内、外,“几乎所有领域都需要用大模型重构”的论调已深入人心。中国 200 多家厂商掀起的“百模大战”、层出不穷的千亿、万亿大参数模型、性能效果与应用方向的飞速迭代,无一不在表明大模型被各行各业拥抱的热潮力度。但在更多行业对大模型跃跃欲试之际,也有许多现实的落地问题浮现出来,可控性问题就是其中之一。

 

在 5 月 17 日即将召开的 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,InfoQ 邀请到了达观数据副总裁王文广做演讲分享,他将从大模型相关技术和幻觉问题为切入点,探讨如何利用知识图谱、RAG 和大模型融合的技术路线提高大模型的可解释性、可操作性和可控性。会前,InfoQ 对王文广老师进行了专访,听他先聊一聊大模型的不可控之处和对技术路径的应用判断。

 

以下为访谈实录,经编辑。

 

大模型“不受控”在哪?

InfoQ:说到可控性问题,现在大模型在哪些方面的输出是“不受控”的?

王文广:大模型输出的内容是根据用户输入的 prompt 去生成的,是由模型本身能力来决定的,如果要从细节上来控制模型的输出是不可能的。也就是说,大模型本质上是不可控的。实际应用来讲,大模型的不可控可以从两方面来讲:一是输出的内容与用户预期一致就是是可信的,跟预期不一致就是所谓的幻觉;二是可控性在使用时未必一定是需要的,比如说写小说写剧本等,即使天马行空也没什么大问题。

另外对中国的用户来讲,还有些场景下,可控性是要求很高的。比如有时候会要求必须一字不差地按照给定的内容输出时。但可控性与幻觉又是不同的概念,幻觉是跟事实不符,可控性则是跟预期是否一致。

 

InfoQ:可控性问题是大模型目前落地的最大阻碍吗?业内现有的大模型产品达到什么样的效果?

王文广:不能完全说是障碍,要分场景的,只是在部分可控性要求高的场景下是障碍,比如制造业、金融领域的应用等。也就是说,对输出结果的精确度要求越高,可控性的影响越大。

我认为大模型追求的目标并非可控性,而是模型自身的能力。它的智能化水平与可控性并没有很强的关联,越强的大模型,未必可控性一定做得越好,但可控性可以用别的方法去做。

 

InfoQ:从安全和合规层面来说,整个行业如何能够共同推动大模型的可控?

王文广:这个主要还是要由大模型的提供商来解决这个问题,要保证输出的内容适应各地的法规、习惯、隐私和道德要求。

主流的三种应对方式

 

InfoQ:要解决可控性问题,需要在大模型的哪些方面努力?

王文广:这个有比较多的方法,大家用的最多的是 RAG(检索增强生成)技术,把需要的东西检索出来,然后通过提示词的方法输入到模型里。还有的会采用分析神经网络里的激活链路的方式,这个比较难且成本非常高,所以可能真正用得不太多。

 

InfoQ:目前行业内在可控性问题的解决上,普遍采用哪些方式?

王文广:普遍用的就是 RAG ,特别是在应用里,但 RAG 本身也会有几方面的细分内容。一是搜索引擎,用这一方法去找到答案的大致范围,然后再通过提示词输入到大模型里,让它给出答案;二是向量数据库,用向量的方法去检索内容,但相比搜索引擎来讲,其可能也存在检索效率和精度等问题。因为搜索引擎起点蛮高的,要做好一个搜索引擎并不容易。

另外就是在产业用得比较多的知识图谱,它的好处对业务有很多预定义的结构,能够更方便地找到精确答案,然后再利用大模型把答案生成一段合理文本来回答。

主流来讲就是这三种方法:搜索引擎检索、向量检索和知识图谱增强。应用来说,偏通用的领域前两者比较多,在专业领域知识图谱更好一些。

 

InfoQ:知识图谱能为大模型可控带来多大的提升?在曹植大模型上的运用效果如何?

王文广:知识图谱和大模型是一个互补的关系。从原理上来讲,大模型本质上我们称之为归纳推理的结果,而知识图谱更多是演绎推理;从实用角度来讲的话,大模型是概率输出,无法精确控制,同时即使出错也无法进行编辑,知识图谱恰好能做修改的事,可以在里面写确定性的逻辑。知识图谱的劣势是构建成本高、有很多结构化的成本、逻辑推理要求能够理解业务,而这正是大模型所擅长的,比如说可以用大模型去做知识图谱的构建、语言的理解。两者的结合,刚好可以实现一个高度智能化且能够落地应用的系统。知识图谱和曹植大模型融合在效果上是非常好的,被金融、制造、能源等广泛的行业客户所接受。

 

InfoQ:RAG 能为大模型可控带来多大的提升?在曹植大模型上的运用效果如何?

王文广:最大的提升方向是,用这一方法去提升大模型,相当于把开放性的题目变成选择题。在曹植大模型的落地中,大量才用了与知识图谱融合的方法。

 

InfoQ:对于 RAG 本身的局限之处,在大模型可控的应用实践中如何避免?

王文广:要做大模型落地,RAG 技术是不可避免会遇到的,用别的技术方法只会更难或者效果达不到预期。具体的局限之处要看方法,RAG 的三个方向各自都有其难点所在。搜索引擎的局限在于复杂性,搜索引擎是一个庞大的复杂系统;向量检索乍一看非常简单,但可控性非常差,遇到问题没法去更改,在落地的时候往往会发现,细节是魔鬼,越到后面越没法用;知识图谱和搜索引擎一样是很复杂的知识体系,学习起来都很复杂,而且一个知识图谱往往是针对不同的业务去做的,很难构建起全面的知识图谱。

我们现在的做法,是在一个系统里把这三种方法都用起来,每一种方法都有弱点,那就用别的方法去补充。如果只会其中一种方法,顶多就 60 分吧,其实挺难做好的的。

单靠大模型,永远达不到预期

InfoQ:大模型与知识图谱之间有不少重叠的应用能力,二者会相互替代吗?

王文广:我觉得它们永远不会相互替代。举例来说,人类已经很聪明了,但需要精确的专业知识时还是需要去查百科全书。对大模型来讲也是一样的,它也不可能记住所有东西,特别是专业领域的知识,所以我经常说,知识图谱是大模型的百科全书;并且,大模型也需要更新,越大的模型更新越慢,训练也需要时间。所以大模型总需要某种方法来补充信息,知识库就是一个很好的选择。所以,我经常说,书籍是人类进步的阶梯,知识图谱就是大模型(人工智能)进步的阶梯,哈哈。

 

InfoQ:大模型是否能反哺知识图谱的构建与发展?基于大模型的知识图谱能统一吗?

王文广:最直接的影响是,现在有了大模型以后,知识图谱的一些研究方向已经不再做了,比如问答。因为大模型在这些方面做得挺好,互相组合去做就可以了。随之带来的影响就是,大家可以有更多精力做知识图谱的其他方向,比如说推理,这可能也是未来知识图谱会融合大模型去做的一个研究方向。

 

InfoQ:现阶段以及将来有哪些技术可以助力提高大模型的可控性?

王文广:目前来讲我觉得主要就是刚刚提到的三个方法,还有就是大模型本身能力的增强,比如训练一个针对特有领域的技术,可用但成本比较高,而且在语言模型里面好像大家做得不太多,可能还是效果没那么好。

 

InfoQ:您认为大模型在可控性上达到业界和大众的普遍认可,还需要多长时间?

王文广:我觉得单靠大模型很难的,也许永远都达不到大家的预期,必须结合前面说的这几种方法。因为大模型再牛,如果语料里没有相关内容(比如刚刚发生的事情),肯定是答不好的。举一个例子,现在(2024 年 5 月 8 日)问不带检索增强的大模型有关嫦娥六号的内容,肯定全是一本正经胡说八道。

 

InfoQ:在即将到来的 AI Con 上,您准备向听众分享哪些方面的内容?

王文广:我主要会讲两部分,也是大家比较关心的方面。一是具体怎么去解决可控性,我们会主要把搜索引擎、知识图谱和向量数据库组合在一起;二是我们实际在做的案例,因为现在大模型最大的问题就是怎么落地。

 

嘉宾介绍:

王文广,现担任达观数据副总裁,高级工程师职称,浦东新区“明珠计划”菁英人才,曾获得广东省科技进步奖二等奖,上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家,《知识图谱:认知智能理论与实战》作者,参与编撰《智能文本处理实战》,《新程序员 * 人工智能新十年》顾问专家和文章作者,专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。


活动推荐:

AICon全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击查看更多详情。



会议即将开幕,扫码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


2024-05-09 15:346793

评论

发布
暂无评论

SQL Chat - 基于 ChatGPT 的对话式交互 SQL 客户端

Bytebase

sql database ChatGPT

苹果发布macOS Ventura 13.3正式版更新

Rose

mac系统 苹果最新系统 macOS Ventura 13.3

龙蜥白皮书精选:面向异构计算的加速器 SDK

OpenAnolis小助手

开源 sdk 异构计算 加速器 龙蜥白皮书

夜莺n9e监控配置支持电话短信报警

外滩运维专家

夜莺监控 电话报警 短信报警 夜莺监控电话

一文告诉你如何一键复现“TSBS 时序数据库性能基准测试报告”测试结果

TDengine

tdengine 性能测试 时序数据库

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

鳄鱼视界

工作10年,面试超过300人想进阿里的同学,总结出的java面试69题

三十而立

Java java面试

Vue+Spring-Security前后端分离登录实现

做梦都在改BUG

DaVinci Resolve Studio 18(达芬奇调色剪辑)中文版

Rose

达芬奇18破解版

警惕看不见的重试机制:为什么使用RPC必须考虑幂等性

做梦都在改BUG

GitHub上架即巅峰!《Spring Cloud微服务架构实战》标星已超30k

做梦都在改BUG

Java 架构 微服务 Spring Cloud

裸辞跳槽底气!字节在职大佬“Java面试总汇2023”大厂都在考

Java你猿哥

Java 面试 ssm 面经 Java工程师

Mac版cad2024发布 AutoCAD 2024 注册机

Rose

Mac软件 cad cad2024激活版 Autodesk AutoCAD

如何使用责任链默认优雅地进行参数校验?

做梦都在改BUG

Github上获赞59.8K的面试神技—1658页《Java面试突击核心讲》

Java你猿哥

Java 架构 面试 面经 春招

Alibaba官方上线!Java并发编程全彩图册(终极版)GitHub已置顶

做梦都在改BUG

Java 并发编程 多线程 高并发

官方文档 | 【JVM调优体系】「GC底层调优实战」XPocket为终结性能问题而生—开发指南

洛神灬殇

Java JVM 3月日更 XPocket 技术 优化体系

视频下载出来为网页格式?如何将视频转换为mp4格式?

Rose

视频格式转换 Mac视频格式转换 视频下载出来为网页

mac电脑能恢复安卓手机丢失的数据吗?

Rose

mac电脑 安卓数据恢复

互联网工程师1480道Java面试题及答案整理( 2023年 整理版)

Java你猿哥

Java 面试 面经 春招 Java八股文

玩转 ChatGPT+极狐GitLab|分分钟丝滑迁移Jenkins到极狐GitLab CI

极狐GitLab

ci DevOps jenkins CI/CD 极狐GitLab

MobTech MobLink|场景分享的原理

MobTech袤博科技

解密COUNT(*)与COUNT(1):SQL查询你选哪个更高效?

Java你猿哥

Java sql 后端 ssm Java工程师

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

威廉META

连接 AI,NebulaGraph Python ORM 项目 Carina 简化 Web 开发

NebulaGraph

Python ORM 图数据库

吐血整理!互联网大厂最常见的1120道Java面试题(带答案)整理

架构师之道

Java 面试

阿里P7架构师的独家分享——SpringCloud 微服务实战笔记

Java你猿哥

Java 架构 微服务 Spring Boot 面经

MobTech 秒验|防控羊毛党

MobTech袤博科技

开源即巅峰!《Java程序性能优化实战》GitHub三小时标星已超34k

做梦都在改BUG

Java 性能优化 性能调优

灵魂拷问:你写的SQL一般有几个JOIN ?​

Java你猿哥

Java sql 后端 ssm join

面试必问:JVM 如何确定死亡对象?

做梦都在改BUG

Java 面试 JVM

“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广_机器学习/深度学习_华卫_InfoQ精选文章