写点什么

企业级生成式 AI 应用,如何克服“幻觉”问题

  • 2023-09-12
    北京
  • 本文字数:4205 字

    阅读完需:约 14 分钟

企业级生成式AI应用,如何克服“幻觉”问题

“最近我被问到最多的一个问题,是IBM现在还在做 AI 吗?我想告诉大家的是,IBM 是一家混合云与 AI 公司,我们一直在做 AI,并且专门做企业级 AI。”IBM 大中华区首席技术官、研发中心总经理谢东在日前接受媒体采访时强调。


面对今年以来热度一路狂飙的生成式 AI,作为 AI 发展史上的重要参与者,IBM 并没有“闲着”。今年 5 月,IBM 发布了企业级 AI 和数据平台watsonx;自 7 月份以来,各个模块陆续上市;预计在今年年底到明年初,全部功能模块将会上市。其中,watsonx.data 的 premise 版本现在已经可以提供给中国客户。


如谢东强调,IBM 在其中锚定的依旧是“企业级”市场,延续长期以来的产品和生态定位。


然而,企业级 AI 应用与个人 AI 应用需求之间存在巨大差异,对技术本身的要求也不在一个量级。仅拿当下生成式 AI 应用最让人诟病的“AI 幻觉”问题来说,放在企业级生产环境,对此几乎是“零容忍”。


根据 IBM 商业价值研究院最近发布的面向全球超过 30 个国家和地区、超过 3000 名 CEO 的调研报告显示,61%的受访 CEO 表达了对生成式 AI 中所使用的数据来源的担忧。


“这一担忧侧面反映了企业 AI 应用之路面临着重重挑战:首先是技术挑战,尤其是数据的准备、应用和治理;第二是人才挑战,企业需要快速实现人员技能的转型和提升,来拥抱 AI 浪潮;第三是文化挑战,技能的转型往往伴随组织文化的更新,如何让二者互相成就、带来生产力的提高,这需要优秀的管理智慧。”IBM 大中华区董事长、总经理陈旭东指出。


据此,在 IBM 看来,在企业落地 AI 应用有三个关键点:聚焦自身的业务需求、使用企业自己的数据、量身定制生成式 AI 解决方案和模型。那么,IBM watsonx 究竟是什么?又如何满足企业级 AI 应用的如上需求?本文将为大家揭晓。

企业使用 AI,关注的是它“不能做什么”和“不允许做什么”


从“AI 幻觉”问题说起。


企业使用 AI,不只是关心它“能做什么”,更要关注的是它“不能做什么”,以及“不允许它做什么”。AI 的可信性、可解释性非常关键。因为企业决策与经营直接相关,企业使用 AI,要避免给业务带来技术风险,因此对智能分析的准确率要求高,容错率低。


在谢东看来,消灭“幻觉”归根结底要从最初的数据抓起。“想让 AI 的回答是正确的,至少要保证训练的数据是干净合规的,数据本身的完整性、信息量要合乎要求。”他告诉 InfoQ。


IBM watsonx 正在试图解决这些问题。根据官方释义,它提供一个包括 AI 开发平台 watsonx.ai、数据存储平台 watsonx.data 和 AI 治理平台 watsonx.governance。


其中,watsonx.data 针对企业中海量且复杂的数据,可以通过集中治理和本地自动化策略实施来确保数据的安全性和合规性;此外,watsonx.governance 还采用了软件自动化来帮助企业增强能力以降低风险、满足监管要求和应对 AI 伦理问题,使得企业能够自动化和整合多个工具、应用程序和平台,同时可以记录数据集、模型、相关元数据和管道的来源。


“另一方面,幻觉的产生是因为在大模型中缺失了相应的信息,克服的方法是使用企业自己的数据,把企业的数据输入给它,这样至少可以在特定业务领域减少幻觉的产生。”谢东补充说。


据了解,除了原始数据和专有数据,企业还可以带入自己的数据来丰富和改进他们的目标模型,所有数据都存储在 watsonx.data 中,其中包含有关每个文件或文档的详细元数据,以提供可追溯的治理。在数据的过滤和处理过程中,平台首先会识别数据的来源和 ID,然后对数据进行分类和过滤,对重复数据和不合规数据进行分析和清除。并且,对数据进行版本控制和标记。在过滤和预处理后,每个数据集都会获得一个数据名片。数据名片包含数据堆的名称和版本,以及其内容和已应用的过滤器等其他相关内容。


“换句话说,IBM 非常清楚自己用于训练模型所有的数据及其版本,也会告诉用户我们的模型是由哪些数据训练而来,并且后期还有很多调优的工作,以此增强用户对模型的信心。”谢东进一步解释。


事实上,从现阶段来看,几乎所有生成式模型都可能产生幻觉,都会给出一些不相关或不准确的答案。尤其典型的是,当提示模型去处理一个它没有接受过训练的题目或者用的训练集数据不足时,AI 幻觉很难不发生。


对此,据 IBM 透露,其内部还在研究一种降低 AI 幻觉风险的方法,名为“检索增强生成”,意在使模型能够在生成答案之前从知识库中检索相关数据。


IBM 大中华科技事业部数据人工智能、自动化中国华南与华东大区总经理许伟杰表示,IBM 正在通过模型融合进一步解决这一问题。“大语言模型所做的最重要的一件事是语义理解,目前我们正在通过语义识别,基于 IBM watsonx 能力做精准答案确定。也就是说,利用通用语言大模型的方式了解语义,帮助既有的模型实现既有答案的匹配,再回溯给语义大模型。”

基础模型带来拐点,数据无需再打标签


值得一提的是,IBM watsonx 平台聚焦于特定业务领域的基础模型。基础模型基于特定类型的 Transformer 神经网络架构而构建,为生成相关数据元素的序列(例如句子)而设。非常重要的一点在于,Transformer 架构能够帮助基础模型理解未标记数据,并将输入转换为输出,从而生成新的内容(ChatGPT 就是基于 Transformer 架构开发)。


“以前基于深度学习、机器学习的算法,通常要对海量数据打标签,再交给机器进行学习。并且,经过学习和部署,这个模型也只能做一个特定的事情,比如用于人脸识别或者下棋。”谢东解释道。

换言之,深度学习和机器学习的痛点在于,前期工作巨大,但最终输出的算法模型能应用的范围非常局限,“性价比”不高。


有别于此,基础模型允许在大量未标记的数据上进行训练,可以适应新的场景和用例。尽管基础模型也需要前期大量投资,但每次使用时,它都会摊销 AI 模型构建的初始工作,因为微调基于基础模型构建的其他模型的数据要求要比从头开始构建低得多。这既可以大幅提高投资回报率(ROI),又可以大大缩短上市时间。


因此,在 IBM 看来,基础模型把 AI 技术发展带到一个拐点——使企业级 AI 的加速和扩展成为可能


“我们认为,相较于通用大语言模型,企业应该更加关注基础模型。”谢东解释道,“在企业应用 AI 的时候,除了大语言模型,还会有不同的应用场景,包括 IT 自动化模型、数字劳动力的模型、网络安全模型等等,这些不同的专业模型支撑了这些企业级应用。”


据了解,IBM 目前正在构建一系列针对多种类型的业务数据进行训练的特定领域的基础模型,包括代码、时间序列数据、表格数据、地理空间数据、半结构化数据和混合模态数据(如文本与图像的组合)。IBM 认为,这些基础模型的灵活性和可扩展性将显著加速企业对 AI 的采用。


在今年 7 月举办的 2023 温网锦标赛上,IBM 已经利用 watsonx 为大赛所有视频集锦提供生成式 AI 解说,并且,基于 IBM AI Draw Analysis 提供的一套全新的统计数据,还可以使用 AI 来预测单打抽签中每个球员进入决赛的可能性。

大模型不一定越“大”越好


有了基础模型,下一个解决的问题是,企业如何根据自身的业务需求,选择适用的模型。谢东强调,所谓“适用”,意味着模型不一定越“大”越好。因为,企业在任何技术领域的投入都是以驱动经营为目的,更在乎其中的投入产出比。


一方面,虽然模型越“大”,其知识和能力也越强,但是成本投入也是巨大的。对于企业而言,很多应用场景的落地并不在于模型本身大小,而在于多大程度符合企业特定要求,能不能很好地完成任务,匹配业务目标;


另一方面,支持一个大模型的训练和运行非常消耗算力,模型上线之后,企业业务本身仍然在不断变化,这要求模型具备适应性和可扩展性,系统能力也要不断学习和进化。而出于运维成本的考虑,“小”模型反而比“大”模型更加节约且灵活。


“在这个过程中,基础模型要演化出各种不同应用,还需要有新的自动化工具和项目管理方法,实现持续的训练、调试、部署等工作。”谢东举例,IBM watsonx 就是这样一个平台工具,IBM 希望借此减轻企业的 AI 负担,让企业可以更轻松地实现大规模开发、调整和部署企业级 AI。


举例来说,基于 watsonx.ai,AI 开发者就可以利用 IBM 自有的模型和 Hugging Face 的模型来完成一系列 AI 开发任务。这些模型经过预训练,可以支持一系列自然语言处理 (NLP) 类型的任务,包括问答、内容生成和摘要、文本分类和提取。据了解,未来的版本还将提供更多由 IBM 训练的针对提升相关领域效率和任务专业化的专有基础模型的访问。


事实上,多年来,IBM 一直在帮助企业把 AI 部署到核心应用中,从而增强企业生产力。据菜鸟科技首席科学家、菜鸟物流科技部算法总监王子豪介绍,菜鸟与 IBM 在 AI 开放和赋能方面有很多共性,菜鸟物流最早在快递行业提出了神经网络驱动的大规模地址分单技术,并且陆续在仓储、客服、供应链等环节实现了广泛的智能化升级,包括在仓储场景应用机器视觉、推出物流智能客服和快递末端地理大模型、基于决策智能技术构建菜鸟全球供应链网络等等。并且,菜鸟还在无锡构建了亚洲最大规模的智能调度现场,最高峰期可以调度同时 1000 台飞机。


但是,随着基础模型的演进,以及生成式AI的兴起,的的确确给各行业 AI 的规模化广泛应用带来了新的变化。


谢东强调:“我们需要从以前数据为先的‘+AI’时代迈入 AI 为先的‘AI+’时代。这个说法不光是一个加号在前在后,当我们说+AI 的时候,注重的是以数据为中心,企业是在数据应用的层面上附加一些 AI 的能力。而当我们走到 AI+的阶段,意味着企业需要建立起 AI 的基础能力,在这基础上,我们需要进一步结合企业自身的数据和不同的业务目标,构建新的核心应用。”

写在最后


对于企业而言,IBM watsonx 是一个全新的 AI 和数据平台工具,那么,如何才能让这个工具“物尽其用”?

除了搞定数据质量、数据共享的问题之外,IBM Consulting 大中华区总裁陈科典表示,企业中还必须具备相应的文化、人才和制度。“企业需要去提升内部人才的能力,培养新的文化,如此以来,才能让内部对生成式 AI 的信心越来越充足,那么,更多的场景才会被创造出来。”


具体而言,IBM 认为在生成式 AI 的技术背景下,相关技术人员需要至少具备两类能力:一是理解业务场景,能够针对业务目标,对模型进行训练和调整;二是理解企业自己的数据,知道数据分布在哪里,使用过程中的标准和规则等等


IBM 大中华区客户成功管理部总经理朱辉强调,“生成式 AI 的应用现在基本还处于‘打开脑洞’的阶段,所以我们特别强调共创。因为有构建大模型能力的人,不一定拥有业务场景的支持,而拥有业务场景的企业,也不一定具有建设大模型的能力。这也是 IBM 一直以来的战略定位,热衷于提供基础能力,与合作伙伴和客户共创解决方案,从而解决客户的问题。而不是拿出一个现成方案,告诉别人这就是你应该要的东西。”

2023-09-12 17:343177

评论

发布
暂无评论
发现更多内容

Nodejs使用es module开发CLI

zayfen

nodejs Module ES cli esm

话题讨论 | 程序员们来说一说,你们从编程开始到现在共使用过多少种语言?

InfoQ写作社区官方

写作平台 话题讨论 语言

2020年史诗级‘面试宝典’横空而出,金九银十就靠“它”涨薪了

学习 程序员 面试 架构师

前端 10 问之 TypeScript (第一篇)

局外人

typescript 大前端

记一次前端vue相关面试题目和简答案

靖仙

面试 Vue MVVM

机器学习及信息与认知的逻辑

superman

学习 认知提升 个人提升

Redis-技术专题-Redis知识体系

洛神灬殇

Hadoop3 环境搭建

yuanhang

华为HMS:风雨突然,仍求自我

脑极体

金九银十:搞定这两个GitHub标星50K开源项目,拿个30k轻松吧?

编程 程序员 面试 算法 架构师

Flink SQL 1.11 新功能与最佳实践

Apache Flink

flink

作为一个架构师,我是不是应该有很多职责?

架构师修行之路

程序员 架构师

MySQL中my.cnf的配置说明

Matrix Chan

运维 MySQ MySQL 运维 数据库运维

Git 中submodule的使用,终于有人说明白了

Java架构师迁哥

CDN百科11 | 如何用CDN加速OSS源站资源

阿里云Edge Plus

Apache Pulsar 社区周报|08-22 ~ 09-04

Apache Pulsar

开源 云原生 Apache Pulsar 消息系统 消息中间件

随笔文,关于”中台“ 的一些“小偏论”

松子(李博源)

大数据 数据中台 中台 数据平台

面经手册 · 第10篇《扫盲java.util.Collections工具包,学习排序、二分、洗牌、旋转算法》

小傅哥

Java 数据结构 算法 归并排序 洗牌算法

Spring 5 中文解析核心篇-集成测试之TestContext(下)

青年IT男

单元测试 Spring5

Mac搭建本地koa2项目

靖仙

koa2 本地环境搭建

中国移动张浩:AMQP on Pulsar 的设计与应用一览

Apache Pulsar

Apache 云原生 Apache Pulsar 消息中间件 AMQP

详解增强算术赋值:“-=”操作是怎么实现的?

Python猫

Python 编程

MySQL8.0大表秒加字段,是真的吗?

Simon

MySQL

5G加速商用,云通信如何推动企业营销数智化

阿里云Edge Plus

大厂面试爱问的「调度算法」,20 张图一举拿下

Java架构师迁哥

你不可不知道的Design Thinking

长沙造纸农

设计 思维方式 设计思维 设计实践 设计师

甲方日常 12

句子

工作 随笔杂谈 日常

如何基于 Flink 生成在线机器学习的样本?

Apache Flink

flink

Hadoop 客户端节点

yuanhang

hadoop3

第13周总结+作业

林毋梦

Elasticsearch之文档操作

北漂码农有话说

企业级生成式AI应用,如何克服“幻觉”问题_生成式 AI_高玉娴_InfoQ精选文章