写点什么

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

  • 2024-04-24
  • 本文字数:1362 字

    阅读完需:约 4 分钟

大小:663.34K时长:03:46
端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

根据一张图片,能完成什么任务?


想吃菠萝了?迅速跳转 Instacart 商城界面,各种菠萝任君挑选。



想给家里添置一台吸尘器?没问题,立马来到 Amazon。



想了解路过大桥的历史?好的,Google 搜索给你想要的答案。



想发个邮件?OK,识别图片大意,填写收件人、标题、正文,发送!



想重新装修下客厅?Done!



上述功能都来自 Nexa AI 团队近日推出的 OctopusV3。据介绍,OctopusV3 流利掌握英语和中文,能够熟练破译文本和图像任务目标,并实现功能调用,制定复杂的动作序列、生成可执行代码,安卓和 IOS 系统都可用。


值得注意的是,OctopusV3 参数量不到 10 亿,但拥有可媲美 GPT-4V 和 GPT-4 组合起来的性能。由此,Nexa AI 称其为“一个体积最小、性能最强大的多模态 On-Device AI 模型”。


据悉,Nexa AI 成立于 2023 年,是一家致力于研究端侧 AI 代理的初创公司。它的创始人兼 CEO Wei Chen、联合创始人兼 CTO Zhiyuan Li 分别是斯坦福大学的博士和硕士,斯坦福大学副教授 Charles (Chuck) Eesley 担任该公司顾问。


OctopusV3 是如何做到的?


根据论文,OctopusV3 开发中最关键的两点是整合图像、文本输入以及优化模型预测行动的能力。为此, Nexa AI 主要采用了视觉信息编码、功能标记、多阶段训练技术。


在图像处理中,有许多方法可以对视觉信息进行编码,其中常用的是来自隐藏层的嵌入、图像标记化等。团队研究评估各种图像编码技术后,决定采用 CLIP 模型的方法。


与应用于自然语言和图像的标记化一样,特定的功能也可以封装到 token 中。Nexa AI 为这些标记引入了一种训练策略,用于管理未见术语。这种方法类似于 word2vec 方案,即通过上下文环境来丰富标记的含义。


例如,高级语言模型最初可能很难处理 PEGylation 和 Endosomal Escape 等复杂的化学术语。然而,这些模型能够通过因果语言建模获得这些术语,尤其是在包含这些术语的数据集上进行训练时。同样,模型也可以使用并行策略来获取功能性标记。Nexa AI 的研究表明,定义功能标记的潜力是无限的,因此可以标记任何特定功能。


OctopusV3 采用了一种将因果语言模型与图像编码器整合在一起的模型架构,这种迭代训练方法增强了模型有效处理和整合多模态信息的能力。


该模型的训练过程分为多个阶段。首先,团队分别对因果语言模型和图像编码器进行训练,以建立基础基准模型;随后合并这些组件,并对模型进行对齐训练,以同步图像和文本处理能力;之后,训练采用在上一个版本 OctopusV2 框架中应用的方法,促进新版本功能标记的学习。在训练的最后阶段,这些能够与环境互动的功能标记提供反馈,用于进一步完善和优化模型。


除了上文提到的简单应用,Octopus V3 还可以针对特定领域,量身定制出高度专业化的 AI 代理。如此,在医疗保健、金融和客户服务等行业中,用人工智能驱动的解决方案显著提高效率和用户体验。


未来,Nexa AI 还会逐步开发出可容纳音频、视频等其他数据模式的训练框架。此外,他们发现视觉输入可能会带来相当大的延迟,因此正在优化推理速度。


Nexa AI 还提到:“希望这个模型可以对自动驾驶和机器人领域产生帮助,也能够在终端设备上开启无限可能。期待有更多的开发者参与使用这个框架,能看到大家的创意和应用。”


参考链接:


https://arxiv.org/pdf/2404.11459.pdf


https://www.nexa4ai.com/

2024-04-24 15:006574

评论

发布
暂无评论
发现更多内容

如何彻底解决ToB企业市场和销售脱节的问题

客户在哪儿AI

ToB营销 ToB获客 ToB销售

从0-100:钓鱼场小程序开发笔记(上)

CC同学

Oracle,MySQL,SQLServer三种关系型数据库的特点介绍

源字节1号

小程序 开源 软件开发 前端开发 后端开发

java+uniapp实现微信JSSDK扫码功能

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

无损音乐播放器推荐:Audirvana for Mac 中文激活版

你的猪会飞吗

Mac 软件

深入了解项目跟踪软件的关键优势

爱吃小舅的鱼

项目进度管理

我的数据清洗能手小浣熊

轻口味

征文活动 办公小浣熊 小浣熊家族

我的数据分析大师-办公小浣熊

黑白相间

数据分析 办公小浣熊

ToB市场部如何选择最优的合作平台

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售

破解缺陷管理:挑选顶尖系统的秘籍

爱吃小舅的鱼

缺陷跟踪

小浣熊家族:自媒体新手的快速成长指南

程序员海军

AI 办公小浣熊 小浣熊家族 小浣熊

【开源鸿蒙】编译OpenHarmony轻量系统QEMU RISC-V版本

码匠许师傅

qemu OpenHarmony risc-v

XMind for Mac:专业思维导图软件,提升思维与工作效率

Mac相关知识分享

想知道海外技术面试都考些什么吗?

王中阳Go

Go 数据库 面试 算法 面经

实测小浣熊AI办公神器(效率翻倍不是梦)

攻城先森

人工智能 智能助手 大模型 AIGC 办公小浣熊

多功能文件同步对比工具Beyond Compare 4 for Mac

Mac相关知识分享

ToB活动营销先要区分战略级活动、常规级活动和与我无关的活动

客户在哪儿AI

ToB营销 活动营销 ToB获客 ToB销售

开源创新引领未来|酷克数据亮相PostgreSQL中国技术大会,荣获数据库杰出贡献奖

酷克数据HashData

供配电学习笔记 day4

万里无云万里天

自动化 电力 工厂运维

如有神威,办公小浣熊助我轻松拿捏数据分析

战场小包

小浣熊 AI办公助手

客户在哪儿AI用数据解决ToB企业市场和销售脱节问题

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售

小浣熊,本领强,助我轻松把活忙

知日

AI #人工智能 小浣熊家族

Mac应用程序清理卸载工具:App Cleaner & Uninstaller for Mac 中文版

你的猪会飞吗

Mac软件下载站 mac破解软件下载

加速数字化转型,信创自主可控:TapData 为银行业数据管理能力建设提供新思路

tapdata

Dash for Mac(好用的API文档工具) v7.2.4版

Mac相关知识分享

业务连续性专题:DBless

agnostic

高可用架构

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?_AI&大模型_傅宇琪_InfoQ精选文章