写点什么

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

作者:Srini Penchikala, Dr Einat Orr, Rags Srinivas等

  • 2022-08-08
  • 本文字数:3130 字

    阅读完需:约 10 分钟

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇

本文是对2022年AI、ML和数据工程InfoQ趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

 


在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

 

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目LakeFS的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦QCon大会上发表了演讲。

 

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

 

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

 

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的Pathways Language Model(PaLM)、EleutherAI 的GPT-NeoX-20B、Meta 的Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的T0系列 NLP 模型。

 

深度学习进入早期大众阶段

 

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

 

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统松散耦合的深度学习服务使用Apache Spark和NVIDIA GPU加速深度学习)和新闻(BigScience的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型Minerva、OpenAI 的开源框架Video PreTraining)。

视觉语言模型

 

与图像处理相关的 AI 模型发展还包括 DeepMind 的Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

 

谷歌的 Brain 团队发布了Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

 

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

 

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

 

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

 

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

 

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

 

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

 

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器H100 GPUGrace CPU Superchip

 

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

 

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

 

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手:GitHub Copilot

 

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

 

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

 

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

 

亚马逊云科技推出了SageMaker Ground Truth等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

 

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

 

在这次大会上,Ismaël Mejía讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

 

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

 

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

 

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

 

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

 

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

 

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

 

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

 

在播客中讨论的其他主要趋势如下。

 

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的GPT-JGPT-Neo、Meta 的OPT模型)。

  • 用于机器学习训练的开源图像到文本数据集,如CLIPDALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

 

要了解更多信息,请参考2022年AI、ML和数据工程播客录音和文本,以及InfoQ的AI、ML和数据工程专题内容。

 

原文链接

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

 

2022-08-08 10:235620

评论

发布
暂无评论
发现更多内容

陶建辉在“2023 可信数据库发展大会”发表演讲,TDengine 入选中国数据库产业图谱

爱倒腾的程序员

涛思数据 tdengine 时序数据库

如何用大模型 Prompt 解决行业场景问题?大厂中文教程来了!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

华为云代码托管CodeArts Repo:保护企业核心代码资产安全

华为云PaaS服务小智

云计算 华为云 代码托管 华为开发者大会2023

直播软件开发知识:实现感知网络质量功能

山东布谷科技

源码 软件 软件开发 直播 源码搭建

软件测试/测试开发丨Python常用数据结构-集合Set

测试人

Python 程序员 软件测试 测试开发

AI for Science交流会来了!科学计算前沿邀您共同探讨

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

如何通过云管平台实现降本?降低云成本?

行云管家

云计算 云平台 云资源 云成本

用Vue3编写一个简单的组件

互联网工科生

Vue 3 slots

软件测试 | 测试设计技巧—游戏类

测吧(北京)科技有限公司

测试

云堡垒机比硬件堡垒机便宜吗?为什么呢?

行云管家

网络安全 堡垒机 硬件堡垒机

Git教学

猫九

git 学习

从php5.6到golang1.19-文库App性能跃迁之路

百度Geek说

golang App 百度文库

星辰天合公司产品完成阿里云PolarDB数据库产品生态集成认证

阿里云数据库开源

polarDB PolarDB-X PolarDB for PostgreSQL

对线面试官-Redis(六 如何保证 Redis 高并发 主从复制原理)

派大星

Java 面试题

以“信”数智,筑“广”生态:亚信科技CEO高念书受邀出席中国广电数字化赋能大会

亚信AntDB数据库

数据库 AntDB AntDB数据库

深入理解 Python 虚拟机:字节(bytes)的实现原理及源码剖析

EquatorCoco

Python 虚拟机 字节

华为云盘古气象大模型研究成果在《Nature》正刊发表

新消费日报

前端开发需要了解的工具集合

树上有只程序猿

软件测试 | 接口自动化测试,如何实现多套环境的自动化测试?

测吧(北京)科技有限公司

测试

软件测试 | 性能测试人力资源规划

测吧(北京)科技有限公司

测试

华为云“盘古气象”登上Nature!

新消费日报

KaiwuDB 亮相 2023 可信数据库发展大会

KaiwuDB

KaiwuDB 2023可信数据库发展大会

Monibuca 中的内存复用

不卡科技

GC go语言 流媒体开发 内存池 Monibuca

沙漠觅绿洲——华为HMS生态强势赋能伙伴成功掘金中东非

最新动态

不容错过的基础设施专场!今天4点,关于全场景质量协同平台T-One的介绍 | 第86-96期

OpenAnolis小助手

开源 基础设施 操作系统 龙蜥大讲堂 T-one

专利技术系列 001 | 鹏云网络分布式系统脑裂问题解决方案

鹏云网络

云计算 分布式系统 分布式存储 分布式系统脑裂 软件定义存储

prometheus Histogram 统计原理

蓝胖子的编程梦

Grafana Prometheus #Grafana #Prometheus #监控

[BitSail] Connector开发详解系列二:SourceSplitCoordinator

字节跳动数据平台

打工人都在用的AI工具

不在线第一只蜗牛

人工智能 工具 ChatGPT

JavaScript 函数

猫九

软件测试 | 测试工具与技术总结

测吧(北京)科技有限公司

测试

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇_AI&大模型_InfoQ精选文章