写点什么

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

  • 2024-06-04
    北京
  • 本文字数:4656 字

    阅读完需:约 15 分钟

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

上周,大模型领域聚焦于方言技术,两大突破性进展备受瞩目。商汤科技推出了商量(SenseChat)粤语版大模型,这不仅代表了人工智能在方言领域的深入探索,也体现了对地区语言文化的重视。商汤宣布,将于 7 月 1 日向粤语用户开放粤语版网页及 APP,并承诺永久免费,这无疑将极大地方便粤语用户的日常交流和使用。

其次,中国电信人工智能研究院发布了星辰超多方言语音识别大模型,作为业内首个支持 30 种方言自由混说的模型,它打破了传统模型的局限,能够同时识别和理解包括粤语、上海话、四川话、温州话等在内的多种方言。这一创新为方言的语音识别领域树立了新的标杆。这些创新的推出,不仅推动了大模型技术在方言识别和处理方面的进步,也为地区文化的传承与保护提供了坚实的技术基础。

二、具体内容

大模型持续更新

开源领域

  1. 5 月 28 日,浪潮信息发布「源 2.0-M32」(MOE)开源大模型。“源 2.0-M32”在基于“源 2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为 37 亿。

  2. 5 月 28 日,北京大学和 Colossal-AI 团队共同推出新一代开源视频生成模型「 Open-Sora-Plan v1.1」,它在视频生成的质量和时长方面有了显著提升,能够生成最长约为 21 秒的视频,并优化了 Causal Video VAE 架构以提高性能和推理效率,并展示了包括文生视频和视频编辑在内的多种功能。此外,Open-Sora-Plan v1.1.0 也已经支持使用国产 AI 计算系统(如华为昇腾)进行完整的训练和推理。

  3. 5 月 29 日,法国 AI 初创公司 Mistral AI 发布编程大模型 Codestral,支持 80 多种编程语言,包括 Python、Java、C、C++,JavaScript、Bash、Swift 等。

  4. 5 月 30 日,涂鸦智能在 2024 TUYA 全球开发者大会上,发布其首个 AI 大模型 Cube Al 以及三款 AI 开发工具(AI 开发者平台、AI 分析师工具、AI 应用终端)、AI 小程序开发底座。 Cube Al 凭借涂鸦生态的设备和开源大模型能力,可以为智慧场景提供 AI 技术价值,能实时分析能源消耗并生成最优节能策略,助力实现工业、商业及家庭的智慧节能。

多模态领域

  1. 5 月 25 日,中国电信人工智能研究院发布业内首个支持 30 种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言,是国内支持最多方言的语音识别大模型。

  2. 5 月 25 日,广联达在 2024 年中国数字建筑大会上发布了建筑行业 AI 大模型 AecGPT ,该模型基于海量行业数据和先进 AI 技术,拥有卓越的建筑行业分析能力,能广泛应用于建筑全生命周期的各个阶段,提升工作效率,为建筑行业数字化发展提供强大支持。

  3. 5 月 27 日,一款多语言手语模型 SignLLM 发布。该产品的主要功能在于通过文字描述生成手语视频,能够支持包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语。SignLLM 的引入不仅为听力障碍者提供了一种新的沟通方式,使他们能够更直观地理解和表达信息,同时也推动了人工智能在语言理解和生成领域的研究。

  4. 5 月 29 日,基于 5.0 大模型,商汤科技推出了商量(SenseChat)粤语版大模型并正式对外。商汤在同日宣布旗下应用产品商量粤语版网页及 APP 将于 7 月 1 日向粤语用户开放并永久免费。商量粤语 API(应用程序编程接口)现已开放,最大支持 128K 窗口,根据模型输入和输出量计费,每 100 万 tokens 收费 30 港元。

  5. 5 月 29 日,一款开源的文本到语音(TTS)模型 ChatTTS 正式发布,该产品专为对话场景设计,主要功能包括将输入的文本转换为自然流畅的语音,支持中文和英文,并具备预测和控制细粒度韵律特征的能力,如笑声、停顿等。

  6. 5 月 29 日,一款全新的开源视觉大语言模型 Llama3-V 发布。该模型具备跨模态任务处理能力,能融合视觉与文本信息,实现高效执行。同时,Llama3-V 开源了所有相关资源,为开发者提供了创新空间。

  7. 5 月 30 日,快手自研文生图大模型「可图」已于近日正式对外开放。其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用,这也是快手首次将其自研的系列大模型对外开放。

应用探索

新产品新应用/功能

  1. 5 月 25 日,强大的 AI 音乐生成工具 Suno 3.5 发布。相较于 3.0 版本,此次发布的 3.5 版本支持长达 4 分钟的完整曲目创作,并具备智能优化音乐结构、个性化定制以及从声音到声音的转换能力。此外,它还特别为快节奏制作环境设计了快速生成短曲目的功能,是音乐创作者的得力助手。

  2. 5 月 27 日,Stability AI 推出一款功能全面的聊天机器人 Stable Assistant ,它融合了强大的文本和图像生成技术,如 Stable Diffusion3 和 Stable LM2 12B,能够根据用户的提示和需求生成高质量的图像和视频内容,为用户提供了从文字到图像、视频的全方位创作体验。同时,它还提供了灵活的订阅计划和便捷的服务,让用户能够根据自己的需求随时选择使用。

  3. 5 月 27 日,小度科技全新发布小度学习机 Z30,凭借其基于文心大模型的强大能力,不仅为孩子提供全面、有效的学习辅导,更是一位能够引导孩子学习的智能伙伴。同时,其护眼设计和高性能配置更是保证了孩子的健康与学习的顺畅进行,树立了学习机行业的新标杆。

  4. 5 月 28 日,衔远科技推出 MODI 摹小仙 AI 营销大脑,这是一款一站式的 AI Native 营销自动化底座模型,它结合通专融合技术,在营销洞察、创意策划、内容生产和营销转化方面展现出显著优势,适用于多种营销场景,为企业提供全链路营销智能创作,助力品牌企业实现高效、精准的营销效果。

  5. 5 月 29 日,优编程携手悉之智能发布了全球首个信息学编程教学 AI 模型——优香农大模型。该模型利用先进的大语言模型和多模态交互技术,旨在通过 AI 自动生成高质量教学内容、提供个性化学习指导和实时互动反馈,从而革新传统教育模式,有效解决信息学编程教育中的师资短缺、教学负担重等问题,推动 AI 技术在教育领域的应用和发展。

  6. 5 月 30 日,腾讯公司推出基于混元大模型的 AI 助手 App 腾讯元宝。该应用集成了 AI 搜索、AI 总结、AI 写作等强大功能,旨在通过先进的 AI 技术,为用户提供高效的工作效率和丰富多彩的日常生活体验。在用户体验方面提供了如口语陪练、创建个人智能体等特色功能,此外,腾讯元宝还具备处理复杂信息的能力,如一次性深度解析多个微信公众号链接、网址以及多种格式的文档,使得处理信息更为高效便捷。

  7. 5 月 30 日,百度文库在苏州的移动生态万象大会上宣布推出 AI 原生应用「橙篇」,这帮助用户实现对“超大量、超多格式、超长内容”的文件进行快速理解、总结与问答以及长文本的生成、深度编辑等自由创作。据百度文库透露,百度文库 AI 功能使用次数已超过 15 亿。

  8. 5 月 30 日,Topaz Labs 推出了新的 udio-130 音乐生成模型。该模型可生成长达两分钟的音频,为音乐创作提供了长期连贯性和结构性的支持。同时,新增了随机种子设置、剪辑开始时间控制等功能,让用户能更精准地定制和剪辑音轨。

智能体

  1. 5 月 25 日,在第七届数字中国建设峰会上,蚂蚁集团正式开源多智能体框架 agentUniverse,这是行业首个开源的金融领域多智能体技术框架,该框架核心提供了多智能体协作编排组件,允许开发者对多智能体协作模式进行开发定制,可帮助开发者加快大模型技术在金融场景的落地研发。

  2. 5 月 28 日,若愚科技推出精心开发的若愚·九天机器人大脑,其在无人厨房领域展现出卓越性能。这款大脑借助多模态大模型驱动的群体智能技术,实现了机器人间的高效协同与任务的自主规划与执行,不仅具备强大的泛化能力,还能精准执行复杂动作,为无人厨房带来了前所未有的智能化、高效化操作体验。

终端 AI

  1. 5 月 30 日,吉利汽车正式发布了联合星纪魅族共同打造的「银河 Flyme Auto」智能座舱系统。同时,吉利还联合 Flyme Sound Inside 发布了行业首个 AI 智能音响系统 ——“Flyme Sound 无界之声”。据悉,银河 Flyme Auto 与 Flyme Sound 都将在吉利银河全新产品上应用搭载,并根据不同车型需求作针对性开发定制。

其他

  1. 5 月 27 日,埃隆·马斯克旗下的人工智能初创公司 xAI 在其官方博客中宣布获得 60 亿美元 B 轮融资。马斯克在 X 平台上称,公司此轮融资投前估值已达 180 亿美元。此次融资由多家知名投资机构参与,如 Valor Equity Partners、Vy Capital 和 Andreessen Horowitz 等。这笔资金将用于推动其首批产品上市、构建先进的基础设施,并加速未来技术的研发。

  2. 5 月 28 日,AIGC 科技企业 爱设计 宣布完成 B1 轮融资。本轮融资由 A 股上市公司视觉中国领投,星连资本和 36 氪跟投,这是爱设计在短短 4 年内获得的第四轮融资。此次融资资金将主要用于人工智能技术、内容版权供应体系、国内外用户增长和核心人才的引入等方面。

  3. 5 月 29 日,中央网信办、市场监管总局、工业和信息化部近日联合印发《信息化标准建设行动计划(2024—2027 年)》。计划提出要完善人工智能标准,强化通用性、基础性、伦理、安全、隐私等标准研制。加快推进大模型、生成式人工智能标准研制。

  4. 5 月 29 日,联想集团宣布已获得沙特公司 Alat 的 20 亿美元战略投资。此次投资将加速联想在中东和非洲市场的扩张,推动其全球业务增长,同时也有助于联想增强财务实力,进一步巩固其作为全球领先的科技公司的地位。

  5. 5 月 29 日,OpenAI 宣布成立安全与安保委员会。这是 OpenAI 在近期面临了一系列的人事变动后做出的调整,这一系列人事变动包括联合创始人兼首席科学家 Ilya Sutskever 的离职以及“超级对齐”团队的解散。这一新成立的委员会将加强公司在 AI 技术开发与应用中的安全性和道德责任,由公司内部的关键成员领导,并计划引入外部专家提供咨询和支持。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。购买票数越多,享受的优惠也就越丰厚,可以联系票务经理 17310043226 , 锁定最新优惠。



2024-06-04 12:144411

评论

发布
暂无评论

头脑风暴:最长递增子序列

HelloWorld杰少

算法 LeetCode 数据结构, 8月月更

避免 10 大 NGINX 配置错误(下)

NGINX开源社区

nginx 配置 配置分析 故障排除

leetcode 303. Range Sum Query - Immutable 区域和检索 - 数组不可变(简单)

okokabcd

LeetCode 算法与数据结构

关于 SAP ABAP 字符变量和字符串变量字符个数的一个知识点

汪子熙

字符串 SAP abap Netweaver 8月月更

openEuler代码贡献之星:麒麟软件裴建康

openEuler

开发者 成长 代码规范 openEuler 开源社区

从函数计算到 Serverless 架构

阿里巴巴中间件

阿里云 开源 Serverless 云原生

开源贡献者计划 2022 第二期正式启动!争做战“码”先锋!

InfoQ写作社区官方

开源 OpenHarmony 热门活动

打破底层技术瓶颈,RTC技术或成为物联网市场的强劲引擎

擎声科技

物联网 RTC sdk 实时音视频 擎声Qtt

RocksDB在大规模分布式系统应用中的经验

CnosDB

时序数据库 开源社区 CnosDB 工程师有话说 CnosDB Tech Talk

5 分钟温故知新 RxJS 【转换操作符】

掘金安东尼

前端 函数式编程 8月月更

[极致用户体验] 网页里的「返回」应该用 history.back 还是 push ?

HullQin

CSS JavaScript html 前端 8月月更

【源码解析】MyBatis结果集映射和参数绑定

小明Java问道之路

源码解析 mybatis源码 mybaits 深度 8月月更

C++继承中的多继承语法与菱形继承

CtrlX

c c++ 面向对象 继承 8月月更

个推TechDay直播预告 | 8月24日晚19:30,实时数仓搭建保姆级教程开课

个推

数据仓库 实时数仓 Flink 平台

字节跳动嵌入式数据分析最佳实践

字节跳动数据平台

字节跳动 数据分析 BI 嵌入式分析 数据看板

HTML

武师叔

8月月更

把充电宝拆了看看

Sher10ck

拆解 充电宝

ABAP工作进程对数据库表读取操作的检测

汪子熙

数据库 SAP abap Netweaver 8月月更

【Django | 开发】面试招聘信息网站(快速搭建核心需求)

计算机魔术师

8月月更

RocketMQ高可用设计之故障规避机制

急需上岸的小谢

8月月更

短视频源码APP开发——短视频的功能

开源直播系统源码

软件开发 直播系统源码 短视频直播系统

新书上市 | 连载 5 年,千万读者追更,这本书讲透了通信背后的故事!

图灵教育

深度学习公式推导(3):初探神经网络

老崔说架构

IPv6邻居发现协议详解

穿过生命散发芬芳

NDP 8月月更

HPC、AI与云计算:当智能时代三叉戟在亚马逊云科技完美融合

脑极体

微服务的拆分与设计原则

阿泽🧸

微服务 8月月更

开源一夏 | Node.js实战对于Buffer和Stream模块系统的深入剖析

恒山其若陋兮

开源 8月月更

【Java】:数组的创建、赋值、访问以及长度

翼同学

Java 学习 编程语言 分享 8月月更

百炼成钢 —— 声网实时网络的自动运维丨Dev for Dev 专栏

声网

Dev for Dev 自动运维

每日一R「09」类型系统(三)

Samson

8月月更 ​Rust

C语言基本的窗口开发

计算机魔术师

8月月更

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章