AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

  • 2023-12-25
    北京
  • 本文字数:4020 字

    阅读完需:约 13 分钟

大小:1.98M时长:11:30
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为AI烧百万美元,零碎的Android 生态打得过吗?

“苹果公司在 LLM 方面一直表现不佳,但他们一直在不断发展‘硬件+软件人工智能’堆栈,没有太多耀眼的广告。我认为,如果新的 iOS 版本突然让 OpenAI/Bard 聊天框看起来可笑地过时,他们可能会击败微软/OpenAI 和谷歌。如果大量人工智能使用转向苹果硬件,它们也会对英伟达构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。

 

也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为,开源模型加上移动设备的本地数据,即本地化的原生 LLM,才是关键,谁在设备上运行得好,谁就卖得好。具体来说,iPhone/iPad/Mac 拥有最多、最一致的本地数据生态,许多开源大模型已经可以在 iPhone 上运行,社区也对 M1/M2/M3 芯片进行了大量优化。而反观 Android 生态,情况却不容乐观:三星占据了大部分市场份额,国内五大厂商也占据了相当大的份额,谷歌所占份额极少,碎片化的局面让通用模型运行面临困难。

 

相比微软等其他巨头在大模型上的高歌猛进,苹果显得很是安静,尤其苹果和哥伦比亚大学的研究人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。

 

但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Android,关于本地大模型为小型设备提供支持的讨论越来越多。而苹果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破:该公司发布了两篇新的研究论文,介绍了 3D 头像和高效语言模型推理的新技术,被认为可能带来更身临其境的视觉体验,并允许复杂的人工智能系统在 iPhone 和 iPad 等消费设备上运行。

 

AI 社区中的许多人后来才注意到 Ferret 的发布,他们很开心苹果公司出人意料地进入了开源 LLM 领域,因为苹果公司历来由于封闭的生态而被称为“围墙花园”。下面我们看下这个才开始被热议的项目。

 

开源地址:

https://github.com/apple/ml-ferret

多模态大语言模型 Ferret

 

“据我们所知,Ferret 是首个能够在多模态大模型中处理自由形式区域输入的成果。”项目研发团队在论文中写道。Ferret 是一种新颖的引用与定位多模态大语言模型(MLLM)。之所以选择多模态大模型作为 Ferret 的设计前提,是因为其拥有强大的视觉语言全局理解能力。 

模型架构

 

根据介绍,Ferret 主要由用于提取图像嵌入的图像编码器;用于提取区域连续特征的空间感知视觉采样器;以及用于对图像、文本和区域特征进行联合建模的大语言模型组成。


  • 输入。

 

将图像输入经过预训练的视觉编码器 CLIP-ViT-L/14 ,以提取图像嵌入 Z ∈ R H×W×C。对于文本输入,使用经过预训练的大模型标记器对文本序列进行标记,并将其投射至文本嵌入 T ∈ R L×D 当中。

 

  • 空间感知视觉采样器。

 

除了常见的点或矩形框之外,团队需要处理的区域形状可能存在很大差异。基于网格的处理方法(例如卷积或 patch attention)无法处理不规则形状。与之类似,3D 点云也属于不规则形状,而且在 3D 空间中表现出不同的稀疏性。受到现有 3D 点云学习方法的启发,团队提出一种空间感知视觉采样器。

 

空间感知视觉采样器用以获取任意形状区域的视觉特征,同时考虑到这些形状所对应的不同稀疏性。以此为基础,团队将离散坐标与连续视觉特征组合起来以表示输入中的视觉区域,由此构成 Ferret 中的混合区域表示。凭借上述方法,Ferret 就能够处理由区域同自由格式文本混合而成的输入,并可以无缝生成每个可定位对象的坐标和文本,由此在输出中定位所提及的对象。

 

假设已经给定提取得出的图像特征图 Z ∈ R H×W×C 和二值化区域掩模 M,团队首先在 M 内随机采样 N 个正点。这 N 个点被输入至级联的块中,每个块包含三个步骤:采样、收集、池化。经过这三个步骤,将获得更少的点和更密集的特征空间。

 

  • 输出。

 

在 Ferret 的输出中,为了实现定位,团队在文本响应中的相应区域/名词之后生成框坐标。例如“图中有一只狗[100,150,300,200]。”通过这种数据格式,模型即可隐式学习当前图像中的可定位内容及其确切位置。

 

  • 大语言模型。

 

团队选定 Vicuna 作为语言模型,这是一种在 Llama 之上通过指令微调而来的纯解码器大语言模型。在输入大模型之前,图像嵌入先通过额外的线性层进行转换,以匹配文本标记的嵌入维度。

 

为了使 Ferret 的引用机制具有开放词汇、指令遵循和健壮性,团队还整理出了一套包含 110 万个样本的引用与引用指令调整数据集 GRIT。

 

GRIT 中包含多个层次的空间知识,涵盖对象、关系、区域描述和复杂推理等要素。GRIT 包含三种数据类型:被转换为指认遵循格式的公共数据集、通过 ChatGPT 和 GPT-4 生成的指令微调数据和额外的空间负样本数据。其中大部分数据是由现有视觉(语言)任务转换而来,例如对象检测和短语定位。

 

此外,团队表示,通过 ChatGPT/GPT-4 收集的 34000 条引用和定位指令调整对话,可以高效完成模型的指令遵循与开放词汇引用/定位训练。团队还进行了空间感知的负样本挖掘,进一步提高了模型的健壮性。


幻觉问题

 

团队也观察到了多模态大模型在回答是/否类问题时,往往表现出产生“幻觉”。对此,团队通过图像条件类别定位以及语义条件类别定位两种方式进行负样本挖掘。

 

这两种方式都要求模型定位特定的对象类别,从而使模型能够辨别并潜在发现某些对象的缺失。不同之处在于,如何选择负样本类别。对于前者,团队采用 Object365 数据从给定图像中未显示的词汇中随机选择对象类,对后者则使用 Flickr30k 数据,并通过 ChatGPT/GPT-4 查找与原始类别、属性或数量最相似的实体以获取负样本,例如“男人”和“女人”、“蓝色”和“黄色”。

 

此外,团队还进行了数据整理,以维持两种类别下正样本和负样本之间的平衡,最终共收集到 95000 条数据。

大模型响应

 

除了通过模板转换现有数据集之外,对话指令调整数据同样在帮助多模态大模型理解人类意图,并生成流畅、自然、长格式响应方面至关重要。目前,业界广泛使用少样本提示以获取视觉指令调整数据,其中将图像的文本场景描述与人工标注对话作为少样本演示,并通过提示词要求 ChatGPT/GPT-4 根据新图像的文本场景生成相应的对话描述。

 

但是,以往的指令调整数据主要集中于描述整体图像,而不会明确指定空间相关信息。为了收集引用与定位指令调整数据,团队通过以下三个步骤强调基于区域的空间知识:

 

  1. 除了像以往那样使用对象与全局标题之外,其符号场景描述还包含对象与区域标题间的物理关系以及相应坐标。

  2. 在人工标注的对话中,团队在输入/输出/二者兼具的可定位区域或对象之后添加坐标,且对话通常集中于特定区域,有助于隐式提示 ChatGPT/GPT-4 在生成新对话时遵循类似的模式。

  3. 实际生成的对话有时无法遵循在系统提示和少样本示例中编写的规则和模式,这可能是由于大语言模型输入中的上下文太长,导致无法处理所有细节。为此,团队建议重复使用 ChatGPT/GPT-4 来简化最初生成的对话,其平均上下文长度仅为首轮生成数据的 10%。另外,为了节约成本,团队仅在首轮生成中使用 ChatGPT,而后使用 GPT-4 进行简写提炼,最终共收集到 34000 条对话。

 

训练过程

 

对于训练过程,团队使用 CLIP-ViT-L/14@336p 对图像编码器进行初始化,使用 Vicuna 对大模型进行初始化,使用 LlaVA 的第一阶段权重对投射层进行初始化,借此实现了视觉采样器的随机初始化。初始化完成后,Ferret 在 GRIT 数据上接受了三个轮次(epoch)的训练,使用 Loshchilov & Hutter 进行优化,学习率为 2e − 5,批量大小为 128。

 

根据介绍,Ferret-13B/7B 模型在 8 张 A100 上的训练分别需要约 5/2.5 天。在训练过程中,当输入引用区域时,团队会随机选择中心点或边界框(在可行时也会选择分割掩膜)来表示各区域,并对训练数据进行了重复数据删除,借此清理下游评估中的样本。

 

为了评估这项新功能,团队引入了 Ferret-Bench,其涵盖三种新型任务:引用描述/引用推理和对话内定位。团队表示,通过对现有多模态大模型进行了基准测试,发现 Ferret 的平均性能较最出色的原有大模型高 20.4%,而且在物体识别的幻觉方面也有所减轻。

 

概括来讲,Ferret 项目论文的贡献主要为以下三个方面:

 

  • 提出了 Ferret 模型,其采用基于新型空间感知视觉采样器的混合区域表示方法,可在多模态大模型中实现细粒度和开放词汇的引用和定位功能。

  • 建立起 GRIT,一套大规模定位与引用指令调整数据集,既可用于模型训练,还包含额外的空间负样本以增强模型健壮性。

  • 引入了 Ferret-Bench 来评估涉及引用/定位、语义、知识和推理的联合任务。

 

结束语

 

很明显,苹果正在努力追赶这次 AIGC 浪潮。据报道,苹果每天在人工智能上投资数百万美元,内部有多个团队开发多种人工智能模型。

 

根据报道,苹果致力于对话式人工智能的部门被称为“Foundational Models”,“大约 16 名”成员,其中包括几名前谷歌工程师。该部门由 Apple 人工智能主管 John Giannandrea 掌舵,他于 2018 年受聘帮助改进 Siri。

 

苹果正在开发自己的大模型“Ajax”。Ajax 旨在与 OpenAI 的 GPT-3 和 GPT-4 等产品相媲美,可运行 2000 亿个参数。Ajax 在内部被称为“Apple GPT”,旨在统一整个 Apple 的机器学习开发,提出了将人工智能更深入地集成到 Apple 生态系统中的更广泛战略。

 

截至最新报告,Ajax 被认为比上一代 ChatGPT 3.5 更强大。然而,也有人认为,截至 2023 年 9 月,OpenAI 的新模型可能已经超越了 Ajax 的能力​。

 

近日,苹果的机器学习研究团队还悄悄发布了一个名为 MLX 的框架来构建基础模型。彭博社报道称,苹果正在开发 Siri 的改进版本,并计划在下一个重大 iOS 版本中提供以人工智能为中心的功能。

 

另外,苹果还正在与一些大型新闻出版商洽谈授权其新闻档案,并利用这些信息来训练模型。《纽约时报》称,该公司正在讨论“价值至少 5000 万美元的多年期交易” ,并已与 Condé Nast、NBC News 和 IAC 等出版商保持联系。

 

相关链接:

https://arxiv.org/pdf/2310.07704.pdf

https://www.macrumors.com/2023/12/21/apple-ai-researchers-run-llms-iphones/

https://www.theverge.com/2023/12/22/24012730/apple-ai-models-news-publishers

2023-12-25 14:446744

评论

发布
暂无评论

华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发

华为云开发者联盟

大数据 Serverless 数据湖 数据开发 华为云

Linux curl命令详解

学神来啦

云计算 Linux 运维 curl

极速体验|使用 Erda 微服务观测接入 Jaeger Trace

尔达Erda

云计算 微服务 云原生 PaaS 分布式架构

iOS应用性能数据采集原理和优化实践 | 详细版

云智慧AIOps社区

ios 性能优化 数据采集 Object-c 技术干货

高精度轻量级目标检测产业应用,实现多类通信塔识别

百度大脑

星际营23期开始招募 门槛高,但是优秀项目可获得全额奖学金,敢来挑战吗?

创业邦

上海英方软件正式加入openGauss社区

openGauss

opengauss

上讯信息正式加入openGauss社区

openGauss

经验分享 | 如何搭建FAQ/用户培训手册

小炮

运营 客户服务

Linux之netstat命令

入门小站

Linux

Flutter ChartSpace:通过跨端 Canvas 实现图表库

字节跳动终端技术

flutter 字节跳动 前端 canvas 图表库

通过CRM系统提高生产力的技巧

低代码小观

企业管理 CRM 企业管理系统 CRM系统 客户关系管理系统

ENS 域名终极指南

devpoint

以太坊 eth 3月月更 ens

[架构实战营] 模块9设计

Vincent

「架构实战营」

HAVE FUN | SOFARegistry 源码解析

SOFAStack

GitHub 开源 程序员 开发者 源码剖析

天翼云发布云原生关系型数据库TeleDB for openGauss

天翼云开发者社区

在充满挑战的时代天翼云以数字化加速市域社会治理现代化

天翼云开发者社区

一周信创舆情观察(2.28~3.6)

统小信uos

人脸识别闸机惊艳美国运动员背后的黑科技是如何实现的?

天翼云开发者社区

2022年3月中国数据库排行榜:TiDB “三连降”仍霸榜首,“常胜四将军”得分集体下跌

墨天轮

数据库 TiDB 国产数据库 KingBase gbase8a

以数字化为引领天翼云助力中安公司应急管理云平台上线

天翼云开发者社区

openGauss助力中国移动获 “ICT优秀案例”

openGauss

opengauss

Redis现网那些坑:用个缓存,还要为磁盘故障买单?

华为云数据库小助手

redis GaussDB GaussDB ( for Redis ) 华为云数据库

2022全网最详细的音视频开发学习路线,零基础到项目实战,从小白到音视频专家

Linux服务器开发

音视频 WebRTC ffmpeg 音视频开发 流媒体服务器开发

《中国软件根技术发展白皮书(基础软件册)》发布!

openGauss

opengauss

详细解读阿里云开源PolarDB总体架构和企业级特性

阿里云数据库开源

数据库 阿里云 polarDB

在线YAML转TOML工具

入门小站

工具

东方电机打造大国重器 携手天翼云挺起智能制造新脊梁 智能制造的力量 东方电机的数字化前行之路

天翼云开发者社区

中国协同办公服务软件,你更看好哪一款?

易观分析

协同办公软件

昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

华为云开发者联盟

强化学习 mindspore ai框架 图学习 昇思MindSpore

恒源云(GpuShare)_PRGC:基于潜在关系和全局对应的联合关系三元组抽取

恒源云

机器学习 深度学习 算法 知识图谱

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为AI烧百万美元,零碎的Android 生态打得过吗?_企业动态_褚杏娟_InfoQ精选文章