写点什么

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

  • 2024-04-24
  • 本文字数:1362 字

    阅读完需:约 4 分钟

大小:663.34K时长:03:46
端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

根据一张图片,能完成什么任务?


想吃菠萝了?迅速跳转 Instacart 商城界面,各种菠萝任君挑选。



想给家里添置一台吸尘器?没问题,立马来到 Amazon。



想了解路过大桥的历史?好的,Google 搜索给你想要的答案。



想发个邮件?OK,识别图片大意,填写收件人、标题、正文,发送!



想重新装修下客厅?Done!



上述功能都来自 Nexa AI 团队近日推出的 OctopusV3。据介绍,OctopusV3 流利掌握英语和中文,能够熟练破译文本和图像任务目标,并实现功能调用,制定复杂的动作序列、生成可执行代码,安卓和 IOS 系统都可用。


值得注意的是,OctopusV3 参数量不到 10 亿,但拥有可媲美 GPT-4V 和 GPT-4 组合起来的性能。由此,Nexa AI 称其为“一个体积最小、性能最强大的多模态 On-Device AI 模型”。


据悉,Nexa AI 成立于 2023 年,是一家致力于研究端侧 AI 代理的初创公司。它的创始人兼 CEO Wei Chen、联合创始人兼 CTO Zhiyuan Li 分别是斯坦福大学的博士和硕士,斯坦福大学副教授 Charles (Chuck) Eesley 担任该公司顾问。


OctopusV3 是如何做到的?


根据论文,OctopusV3 开发中最关键的两点是整合图像、文本输入以及优化模型预测行动的能力。为此, Nexa AI 主要采用了视觉信息编码、功能标记、多阶段训练技术。


在图像处理中,有许多方法可以对视觉信息进行编码,其中常用的是来自隐藏层的嵌入、图像标记化等。团队研究评估各种图像编码技术后,决定采用 CLIP 模型的方法。


与应用于自然语言和图像的标记化一样,特定的功能也可以封装到 token 中。Nexa AI 为这些标记引入了一种训练策略,用于管理未见术语。这种方法类似于 word2vec 方案,即通过上下文环境来丰富标记的含义。


例如,高级语言模型最初可能很难处理 PEGylation 和 Endosomal Escape 等复杂的化学术语。然而,这些模型能够通过因果语言建模获得这些术语,尤其是在包含这些术语的数据集上进行训练时。同样,模型也可以使用并行策略来获取功能性标记。Nexa AI 的研究表明,定义功能标记的潜力是无限的,因此可以标记任何特定功能。


OctopusV3 采用了一种将因果语言模型与图像编码器整合在一起的模型架构,这种迭代训练方法增强了模型有效处理和整合多模态信息的能力。


该模型的训练过程分为多个阶段。首先,团队分别对因果语言模型和图像编码器进行训练,以建立基础基准模型;随后合并这些组件,并对模型进行对齐训练,以同步图像和文本处理能力;之后,训练采用在上一个版本 OctopusV2 框架中应用的方法,促进新版本功能标记的学习。在训练的最后阶段,这些能够与环境互动的功能标记提供反馈,用于进一步完善和优化模型。


除了上文提到的简单应用,Octopus V3 还可以针对特定领域,量身定制出高度专业化的 AI 代理。如此,在医疗保健、金融和客户服务等行业中,用人工智能驱动的解决方案显著提高效率和用户体验。


未来,Nexa AI 还会逐步开发出可容纳音频、视频等其他数据模式的训练框架。此外,他们发现视觉输入可能会带来相当大的延迟,因此正在优化推理速度。


Nexa AI 还提到:“希望这个模型可以对自动驾驶和机器人领域产生帮助,也能够在终端设备上开启无限可能。期待有更多的开发者参与使用这个框架,能看到大家的创意和应用。”


参考链接:


https://arxiv.org/pdf/2404.11459.pdf


https://www.nexa4ai.com/

2024-04-24 15:006505

评论

发布
暂无评论
发现更多内容

如何消减敏捷开发协作中的「认知偏差」?| 敏捷之道

LigaAI

程序人生 产品经理 LigaAI 敏捷开发流程 研发协作

重磅 | 基金会为白金、黄金、白银捐赠人授牌

kk-OSC

开放原子全球开源峰会

2022年企业直播行业发展洞察

易观分析

数据分析 报告 企业直播

JAVA编程规范之二方库依赖

源字节1号

软件开发 程序员‘

高效能7个习惯学习笔记

JefferLiu

高效能人士的七个习惯

架构实战营模块八作业

Geek_Q

CSDN TOP1“一个处女座的程序猿“如何通过写作成为百万粉丝博主

Lansonli

7月月更 如何写作

转转push的演化之路

转转技术团队

push

重磅 | 开放原子校源行活动正式启动

kk-OSC

开放原子全球开源峰会

聊聊性能测试环境搭建

老张

性能测试 环境搭建

共建共享数字世界的根:阿里云打造全面的云原生开源生态

阿里巴巴云原生

阿里云 容器 云原生 开源生态

又快又稳!Alibaba出品Java性能优化高级笔记(全彩版)震撼来袭

冉然学Java

编程 程序员 分布式 性能优化 java 14

CSP直通车 | 在线直播认证培训双周末班 火热报名中

ShineScrum

Scrum 敏捷 CSP-SM 敏捷专家 敏捷大师

开放原子开源基金会秘书长孙文龙 | 凝心聚力,共拓开源

kk-OSC

开放原子全球开源峰会

专访 | 阿里巴巴首席技术官程立:云 + 开源共同形成数字世界的可信基础

kk-OSC

开放原子全球开源峰会

AI全流程开发难题破解之钥

华为云开发者联盟

人工智能 华为云

Alluxio为Presto赋能跨云的自助服务能力

Alluxio

数据架构 presto 跨云 Alluxio

LED透明屏和LED玻璃显示屏区别

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

怎么样的框架对于开发者是友好的?

MASA技术团队

.net 云原生 软件架构

SiC功率半导体产业高峰论坛成功举办

Geek_2d6073

重磅 | 2022 开放原子全球开源峰会在北京开幕

kk-OSC

开放原子全球开源峰会

开源峰会抢先看 | 7 月 29 日分论坛 & 活动议程速览

kk-OSC

开放原子全球开源峰会

一键搭建博客:如何使用WordPress插件搭建专属博客

hum建应用专家

Wordpress 部署 Wordpress 博客部署

即学即用的问题解决思维,给无意识的生活装上“后视镜”

图灵教育

敢看系列?Python字体反爬实战案例之实习那僧,继续挖坑

梦想橡皮擦

Python 爬虫 7月月更

开放原子开源基金会黄金捐赠人优博讯携手合作伙伴,助力OpenHarmony破圈!

Geek_2d6073

12代酷睿处理器+2.8K OLED华硕好屏,灵耀14 2022影青釉商务轻薄本

科技热闻

专访 | 软通动力高级副总裁秦张波:开源驱动创新,推动操作系统产业生态建设

kk-OSC

开放原子全球开源峰会

重磅 | 开放原子算法大赛拉开帷幕

kk-OSC

开放原子全球开源峰会

推荐算法的三大研究热点

博文视点Broadview

云图说丨华为云区块链引擎服务:高安全的区块链技术服务平台,轻松部署,快速上链

华为云开发者联盟

区块链 华为云 引擎 BCS

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?_AI&大模型_傅宇琪_InfoQ精选文章