写点什么

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇

作者:Srini Penchikala, Dr Einat Orr, Rags Srinivas等

  • 2022-08-08
  • 本文字数:3130 字

    阅读完需:约 10 分钟

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇

本文是对2022年AI、ML和数据工程InfoQ趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

 


在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

 

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目LakeFS的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦QCon大会上发表了演讲。

 

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

 

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

 

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的Pathways Language Model(PaLM)、EleutherAI 的GPT-NeoX-20B、Meta 的Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的T0系列 NLP 模型。

 

深度学习进入早期大众阶段

 

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

 

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统松散耦合的深度学习服务使用Apache Spark和NVIDIA GPU加速深度学习)和新闻(BigScience的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型Minerva、OpenAI 的开源框架Video PreTraining)。

视觉语言模型

 

与图像处理相关的 AI 模型发展还包括 DeepMind 的Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

 

谷歌的 Brain 团队发布了Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

 

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

 

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

 

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

 

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

 

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

 

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

 

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器H100 GPUGrace CPU Superchip

 

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

 

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

 

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手:GitHub Copilot

 

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

 

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

 

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

 

亚马逊云科技推出了SageMaker Ground Truth等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

 

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

 

在这次大会上,Ismaël Mejía讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

 

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

 

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

 

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

 

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

 

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

 

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

 

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

 

在播客中讨论的其他主要趋势如下。

 

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的GPT-JGPT-Neo、Meta 的OPT模型)。

  • 用于机器学习训练的开源图像到文本数据集,如CLIPDALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

 

要了解更多信息,请参考2022年AI、ML和数据工程播客录音和文本,以及InfoQ的AI、ML和数据工程专题内容。

 

原文链接

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

 

2022-08-08 10:235518

评论

发布
暂无评论
发现更多内容

XJR企业级软件快速开发平台规范

Marilyn

程序员 敏捷开发 软件设计

商业智能(Business Intelligence)系统的使用及设计原则

Marilyn

敏捷开发 快速开发 商业智能

JAVA代码生成器,快速开发平台之魂

Marilyn

Java 敏捷开发 快速开发 开发工具

有一说一,大型信息化企业的软件系统,还是用自研的好

Marilyn

敏捷开发 快速开发 开发工具 软件设计

JVM-技术专题-深入理解内存结构

洛神灬殇

Java JVM

医院HIS故障,险引发人命关天大危机,竟被程序员轻松解决!

Marilyn

五年Java开发经验,4面阿里成功拿下offer,分享一下个人面经!

Java架构之路

Java 程序员 面试 算法 编程语言

快速开发平台,高集成易扩展,进入软件疾速开发新世代

Marilyn

敏捷开发 快速开发 开发工具

MySQL-技术专题-性能优化—索引篇

洛神灬殇

低代码开发平台,来自“未来”的软件开发方案

Marilyn

敏捷开发

智能时代,快速开发平台将成为主流软件开发工具

Marilyn

敏捷开发

Go发起HTTP2.0请求流程分析(前篇)

Gopher指北

HTTP HTTP2.0 Go 语言

Vidyo的解决方案到底是什么?有哪些特点?

dwqcmo

音视频 集成架构 解决方案 智能硬件

摆脱复杂烧脑的程序代码,利用快速开发平台轻轻松松做软件

Marilyn

敏捷开发 快速开发

GitHub 上开源了一个很邪恶的项目!女生勿近,18香警告...

程序员生活志

Redis Sharding集群跟一致性哈希有什么瓜葛?

Man

一致性哈希 Jedis redis cluster

Go语言内存管理三部曲(一)内存分配原理

网管

内存管理 内存布局 Go 语言

快速开发平台,程序员“老师傅”必备

Marilyn

敏捷开发 快速开发 开发工具

spring-boot-route(十三)整合RabbitMQ

Java旅途

Java Spring Boot RabbitMQ

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的模型保存及重建

Alex

tensorflow keras model save model restore tensorflow hub

架构师训练营 1 期第 4 周:系统架构 - 作业

piercebn

极客大学架构师训练营

标本兼治,程序员用它整体提升公司效率

Marilyn

敏捷开发 快速开发

企业开发遇到瓶颈,何不换个新思路?快速开发了解一下

Marilyn

敏捷开发 快速开发

JAVA & VUE ,分离式开发平台建造思路

Marilyn

Java Vue 敏捷开发

深入分析软件快速开发平台与传统软件开发方案的优缺点

Marilyn

敏捷开发

大企内部软件系统反复故障难以解决,业内人士:唯有彻底更换

Marilyn

敏捷开发 快速开发 开发工具

为什么巨头都在布局SaaS生态?

ToB行业头条

SASS

架构师训练营第 1 期 第 4 周作业

李循律

极客大学架构师训练营

用友政务表格技术应用开发实践:预算一体化产品核心功能搭建

葡萄城技术团队

SpreadJS 用友

阿里面试官纯手打:金九银十跳槽必会Java核心知识点笔记整理

Java架构追梦

Java 数据库 架构 面试 微服务

阿里内部《Java架构进阶宝典》,总结了基础、进阶、架构三个阶段的知识点

Java架构之路

Java 程序员 面试 算法 编程语言

InfoQ 2022年趋势报告:人工智能、机器学习和数据工程篇_AI&大模型_InfoQ精选文章