写点什么

钉钉 AI 震撼升级:加入多模态、工作流等能力

  • 2024-03-28
    北京
  • 本文字数:1724 字

    阅读完需:约 6 分钟

钉钉AI震撼升级:加入多模态、工作流等能力

3 月 28 日,钉钉 AI 助理重磅升级,上线图片理解、文档速读、工作流等产品能力,率先探索多模态、长文本与 RPA 技术在 AI 应用的落地。


基于阿里通义千问大模型,升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力。目前,用户在钉钉 IM 消息框或点击魔法棒按钮进入 AI 助理对话框,发送长文件、在线文档、网页链接、视频内容,即可根据内容识人、识地点、分析、答题、翻译、摘要、提取文字,甚至可以通过多轮交互进一步做智能问答。


钉钉 AI 已支持图像理解、视频速读,化身全能“小百科”


LLM(大语言模型)之后,大模型领域迎来了新的爆点“多模态”,为 AI 应用带来了更大的想象力。


基于通义千问 Qwen-VL-Max 视觉理解模型,钉钉 AI 助理能够准确描述和识别图片信息,并根据图片进行信息推理、扩展创作、文字提取、翻译等,相当于一个全能的“图片小百科”。




不管图片展示的是某件物体、某个人物、风景,还是菜谱、社交梗图、数学题和衣服标签,AI 助理都能一秒识别图片内容,并在此基础上进行多轮对话问答。比如,旅游时看到一个很美的建筑,拍照发给钉钉 AI 助理,就能迅速了解它的历史背景和相关故事。


利用这一能力,用户还可以实现识图翻译或提取图片中的文字,让信息获取更加便捷。比如,不知道某件衣服的洗涤方式,把衣服标签拍个照发给钉钉 AI 助理,就可以翻译上面的英文。


通义千问 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力,整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越 GPT-4V,达到世界最佳水平。




此外,AI 助理也支持视频内容的速读。发送给 AI 助理的短视频、直播切片或培训视频可以被快速“观看”, AI 助理会根据视频内容生成字幕,提取关键词,并生成一份智能摘要,对于最高 2GB 的视频内容,仅需 3 分钟即可完成智能解读。


“文档速读”能力升级,从冗长信息中解放生产力


利用大模型技术从文本中检索、总结信息,可以说是每个人日常生活、工作、学习的需求场景。


基于通义千问大模型,钉钉 AI 助理可以快速阅读本地文件如 Word、PDF、PPT、Excel 等、钉钉文档、网页链接等多种格式文件,轻松解析各类学术论文、产品手册、使用教程、数据表格、新闻报道、多国语言的图书等。




比如,临时需要分析一个业务数据时,上传相关的 Excel 表格,AI 助理就可以直接给出数据结论;企业复杂的产品手册发送给 AI 助理后,可以快速总结和智能问答,大幅提升信息效率。


值得一提的是,钉钉 AI 助理对长文本的处理能力已支持单次阅读 500 页的文件,可以为法律、医学、金融等专业领域提供更全面、准确的信息服务。


比如,有研究者将一份《大模型与自动驾驶如何结合研究报告》的长论文发送后,AI 助理在几秒内就快速总结了相应的内容,并给出了这一研究具体是什么、研究的技术创新点、研究方法等诸多论文的关键要素。用户还可以进一步追问某个知识点的具体来源或相关信息,从阅览文档、反复检索的冗长工作中彻底解放。


AI 助理上线“工作流”, AI 也能干复杂的活了


随着 OpenAI 带火 Agent(智能体),大模型融入自动化技术成为当前最具共识的方向之一。


今年 1 月,钉钉 AI 助理正式上线,企业和个人 AI 助理已进入到工作和生产力场景中。为让 AI 助理可以完成一系列更复杂的任务,钉钉 AI 助理上线了工作流能力。


工作流是 AI Agent 的一种进阶玩法,不仅可以在创建时对 AI 执行任务的流程进行拆解和编排,使得 AI 助理可以主动接管完成相应操作,还能够打通外部的系统数据和 API 能力,进一步扩展了它的行动能力,比如搭建能自动写脚本并生成视频的创作 AI 助理。




为降低用户的使用门槛,钉钉官方还提供了多种工作流模板。已有企业使用工作流创建了门店信息收集助理,将用户反馈自动化整理,并存储到一张钉钉多维表中,帮助员工节约琐碎的时间;个人用户也通过连接微博 API,创建了自动追踪热点并撰写文章的助理,一个指令就能批量执行,大幅提升内容生产的效率。


目前,用户可在钉钉 APP 或 PC 客户端直接使用 AI 助理的各项功能,包括多模态、长文本和工作流,体验 AI 带来的便捷与高效。


关于以上内容的更多信息,钉钉 CTO 程操红将在 4 月 11 日 QCon 全球软件开发大会上进行更深度地讲解,敬请关注!



2024-03-28 12:265937
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 271.1 次阅读, 收获喜欢 297 次。

关注

评论

发布
暂无评论
发现更多内容

Visio Viewer for Mac(Visio文件查看工具)v3.1.0激活版

Rose

天水市有等保测评机构吗?在哪里?

行云管家

网络安全 等保 堡垒机 等级保护

JavaScript 判断客户端是手机还是pad

源字节1号

微信小程序 开源 软件开发 前端开发 后端开发

Python 性能分析的几个方法,找到你代码中的那个她!

我再BUG界嘎嘎乱杀

Python 编程 后端 性能分析 开发语言

PDF Checkpoint for mac(PDF自动化批处理工具)v1.9.21激活版

Rose

Win11镜像下载

Rose

天底下没有永远免费的GPT-4;AI产品用订阅制就不合理!让用户掏钱的N种定价技巧

蓉蓉

AI GPT-4 Claude

使用coconutBattery Plus, 您始终了解当前的电池健康状况。

Rose

可灵重大升级!新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

快手技术

大模型 视频生成 可灵 企业号2024年7月PK榜

第三届 TiDB 社区七夕为爱挑战赛正式开启,等你来挑战!把 TiDBer 专属七夕浪漫带给心爱的TA!

TiDB 社区干货传送门

飞舞在化工企业的AI大模型梦想

脑极体

AI

【堡垒机小知识】农业需要堡垒机吗?为什么?

行云管家

网络安全 数据安全 堡垒机

ASP.NET Core中创建中间件的几种方式

EquatorCoco

asp.net 后端 中间件

亚马逊API接口推荐:亚马逊商品详情数据接口(amazon.item_get)

tbapi

亚马逊API 亚马逊商品详情数据接口 亚马逊商品详情API 亚马逊商品数据采集

记一次TIDB开启TLS失败导致PD扩容失败案例

TiDB 社区干货传送门

实践案例 安装 & 部署

如何通过fomepay自助升级ChatGPT plus

蓉蓉

ChatGPT

全球最大职业社交平台 LinkedIn 为何将 TiDB 应用于大规模服务系统

TiDB 社区干货传送门

社区活动

软工智库|低代码篇(四)——低代码开发平台如何应用?

电子标准院软工研究室

Cellebrite UFED 4PC 7.69 (Windows) - Android 和 iOS 移动设备取证软件

sysin

UFED 数字取证

蔚来汽车:拥抱TiDB,实现数据库性能与稳定性的飞跃

TiDB 社区干货传送门

社区活动

记录一次版本升级的过程

TiDB 社区干货传送门

版本升级 6.x 实践

总是拿不下大客户 不妨从它的企业全历史行为数据里找找思路

客户在哪儿AI

ToB营销 ToB增长 ToB销售

解锁AB测试的力量

FunTester

上海梦创双杨数据科技股份有限公司通过电子标准院《低代码开发平台能力要求》测评

电子标准院软工研究室

代码将由大模型生成 解密中国电信“星辰大模型·软件工厂”

科技热闻

京东JD商品sku信息API返回值解读:商品规格数据与电商风险管理

技术冰糖葫芦

API 安全 API 文档 API 开发

Beyond the scalability — 回顾 PingCAP 刘奇在日本用户大会上的部分演讲语录

TiDB 社区干货传送门

社区活动

自动生成PPT的AI助手有哪些?这5款软件值得推荐!

彭宏豪95

人工智能 职场 PPT AIGC AI生成PPT

中科九洲科技股份有限公司通过电子标准院《低代码开发平台能力要求》测评

电子标准院软工研究室

详解 Postman 中 OAuth 2.0 授权的步骤

Liam

Java 后端 Postman 授权

Java 在成本资源控制下, 千万级别数据查询优化

伤感汤姆布利柏

钉钉AI震撼升级:加入多模态、工作流等能力_AI&大模型_钉钉_InfoQ精选文章