速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

  • 2024-06-04
    北京
  • 本文字数:4656 字

    阅读完需:约 15 分钟

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

上周,大模型领域聚焦于方言技术,两大突破性进展备受瞩目。商汤科技推出了商量(SenseChat)粤语版大模型,这不仅代表了人工智能在方言领域的深入探索,也体现了对地区语言文化的重视。商汤宣布,将于 7 月 1 日向粤语用户开放粤语版网页及 APP,并承诺永久免费,这无疑将极大地方便粤语用户的日常交流和使用。

其次,中国电信人工智能研究院发布了星辰超多方言语音识别大模型,作为业内首个支持 30 种方言自由混说的模型,它打破了传统模型的局限,能够同时识别和理解包括粤语、上海话、四川话、温州话等在内的多种方言。这一创新为方言的语音识别领域树立了新的标杆。这些创新的推出,不仅推动了大模型技术在方言识别和处理方面的进步,也为地区文化的传承与保护提供了坚实的技术基础。

二、具体内容

大模型持续更新

开源领域

  1. 5 月 28 日,浪潮信息发布「源 2.0-M32」(MOE)开源大模型。“源 2.0-M32”在基于“源 2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为 37 亿。

  2. 5 月 28 日,北京大学和 Colossal-AI 团队共同推出新一代开源视频生成模型「 Open-Sora-Plan v1.1」,它在视频生成的质量和时长方面有了显著提升,能够生成最长约为 21 秒的视频,并优化了 Causal Video VAE 架构以提高性能和推理效率,并展示了包括文生视频和视频编辑在内的多种功能。此外,Open-Sora-Plan v1.1.0 也已经支持使用国产 AI 计算系统(如华为昇腾)进行完整的训练和推理。

  3. 5 月 29 日,法国 AI 初创公司 Mistral AI 发布编程大模型 Codestral,支持 80 多种编程语言,包括 Python、Java、C、C++,JavaScript、Bash、Swift 等。

  4. 5 月 30 日,涂鸦智能在 2024 TUYA 全球开发者大会上,发布其首个 AI 大模型 Cube Al 以及三款 AI 开发工具(AI 开发者平台、AI 分析师工具、AI 应用终端)、AI 小程序开发底座。 Cube Al 凭借涂鸦生态的设备和开源大模型能力,可以为智慧场景提供 AI 技术价值,能实时分析能源消耗并生成最优节能策略,助力实现工业、商业及家庭的智慧节能。

多模态领域

  1. 5 月 25 日,中国电信人工智能研究院发布业内首个支持 30 种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言,是国内支持最多方言的语音识别大模型。

  2. 5 月 25 日,广联达在 2024 年中国数字建筑大会上发布了建筑行业 AI 大模型 AecGPT ,该模型基于海量行业数据和先进 AI 技术,拥有卓越的建筑行业分析能力,能广泛应用于建筑全生命周期的各个阶段,提升工作效率,为建筑行业数字化发展提供强大支持。

  3. 5 月 27 日,一款多语言手语模型 SignLLM 发布。该产品的主要功能在于通过文字描述生成手语视频,能够支持包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语。SignLLM 的引入不仅为听力障碍者提供了一种新的沟通方式,使他们能够更直观地理解和表达信息,同时也推动了人工智能在语言理解和生成领域的研究。

  4. 5 月 29 日,基于 5.0 大模型,商汤科技推出了商量(SenseChat)粤语版大模型并正式对外。商汤在同日宣布旗下应用产品商量粤语版网页及 APP 将于 7 月 1 日向粤语用户开放并永久免费。商量粤语 API(应用程序编程接口)现已开放,最大支持 128K 窗口,根据模型输入和输出量计费,每 100 万 tokens 收费 30 港元。

  5. 5 月 29 日,一款开源的文本到语音(TTS)模型 ChatTTS 正式发布,该产品专为对话场景设计,主要功能包括将输入的文本转换为自然流畅的语音,支持中文和英文,并具备预测和控制细粒度韵律特征的能力,如笑声、停顿等。

  6. 5 月 29 日,一款全新的开源视觉大语言模型 Llama3-V 发布。该模型具备跨模态任务处理能力,能融合视觉与文本信息,实现高效执行。同时,Llama3-V 开源了所有相关资源,为开发者提供了创新空间。

  7. 5 月 30 日,快手自研文生图大模型「可图」已于近日正式对外开放。其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用,这也是快手首次将其自研的系列大模型对外开放。

应用探索

新产品新应用/功能

  1. 5 月 25 日,强大的 AI 音乐生成工具 Suno 3.5 发布。相较于 3.0 版本,此次发布的 3.5 版本支持长达 4 分钟的完整曲目创作,并具备智能优化音乐结构、个性化定制以及从声音到声音的转换能力。此外,它还特别为快节奏制作环境设计了快速生成短曲目的功能,是音乐创作者的得力助手。

  2. 5 月 27 日,Stability AI 推出一款功能全面的聊天机器人 Stable Assistant ,它融合了强大的文本和图像生成技术,如 Stable Diffusion3 和 Stable LM2 12B,能够根据用户的提示和需求生成高质量的图像和视频内容,为用户提供了从文字到图像、视频的全方位创作体验。同时,它还提供了灵活的订阅计划和便捷的服务,让用户能够根据自己的需求随时选择使用。

  3. 5 月 27 日,小度科技全新发布小度学习机 Z30,凭借其基于文心大模型的强大能力,不仅为孩子提供全面、有效的学习辅导,更是一位能够引导孩子学习的智能伙伴。同时,其护眼设计和高性能配置更是保证了孩子的健康与学习的顺畅进行,树立了学习机行业的新标杆。

  4. 5 月 28 日,衔远科技推出 MODI 摹小仙 AI 营销大脑,这是一款一站式的 AI Native 营销自动化底座模型,它结合通专融合技术,在营销洞察、创意策划、内容生产和营销转化方面展现出显著优势,适用于多种营销场景,为企业提供全链路营销智能创作,助力品牌企业实现高效、精准的营销效果。

  5. 5 月 29 日,优编程携手悉之智能发布了全球首个信息学编程教学 AI 模型——优香农大模型。该模型利用先进的大语言模型和多模态交互技术,旨在通过 AI 自动生成高质量教学内容、提供个性化学习指导和实时互动反馈,从而革新传统教育模式,有效解决信息学编程教育中的师资短缺、教学负担重等问题,推动 AI 技术在教育领域的应用和发展。

  6. 5 月 30 日,腾讯公司推出基于混元大模型的 AI 助手 App 腾讯元宝。该应用集成了 AI 搜索、AI 总结、AI 写作等强大功能,旨在通过先进的 AI 技术,为用户提供高效的工作效率和丰富多彩的日常生活体验。在用户体验方面提供了如口语陪练、创建个人智能体等特色功能,此外,腾讯元宝还具备处理复杂信息的能力,如一次性深度解析多个微信公众号链接、网址以及多种格式的文档,使得处理信息更为高效便捷。

  7. 5 月 30 日,百度文库在苏州的移动生态万象大会上宣布推出 AI 原生应用「橙篇」,这帮助用户实现对“超大量、超多格式、超长内容”的文件进行快速理解、总结与问答以及长文本的生成、深度编辑等自由创作。据百度文库透露,百度文库 AI 功能使用次数已超过 15 亿。

  8. 5 月 30 日,Topaz Labs 推出了新的 udio-130 音乐生成模型。该模型可生成长达两分钟的音频,为音乐创作提供了长期连贯性和结构性的支持。同时,新增了随机种子设置、剪辑开始时间控制等功能,让用户能更精准地定制和剪辑音轨。

智能体

  1. 5 月 25 日,在第七届数字中国建设峰会上,蚂蚁集团正式开源多智能体框架 agentUniverse,这是行业首个开源的金融领域多智能体技术框架,该框架核心提供了多智能体协作编排组件,允许开发者对多智能体协作模式进行开发定制,可帮助开发者加快大模型技术在金融场景的落地研发。

  2. 5 月 28 日,若愚科技推出精心开发的若愚·九天机器人大脑,其在无人厨房领域展现出卓越性能。这款大脑借助多模态大模型驱动的群体智能技术,实现了机器人间的高效协同与任务的自主规划与执行,不仅具备强大的泛化能力,还能精准执行复杂动作,为无人厨房带来了前所未有的智能化、高效化操作体验。

终端 AI

  1. 5 月 30 日,吉利汽车正式发布了联合星纪魅族共同打造的「银河 Flyme Auto」智能座舱系统。同时,吉利还联合 Flyme Sound Inside 发布了行业首个 AI 智能音响系统 ——“Flyme Sound 无界之声”。据悉,银河 Flyme Auto 与 Flyme Sound 都将在吉利银河全新产品上应用搭载,并根据不同车型需求作针对性开发定制。

其他

  1. 5 月 27 日,埃隆·马斯克旗下的人工智能初创公司 xAI 在其官方博客中宣布获得 60 亿美元 B 轮融资。马斯克在 X 平台上称,公司此轮融资投前估值已达 180 亿美元。此次融资由多家知名投资机构参与,如 Valor Equity Partners、Vy Capital 和 Andreessen Horowitz 等。这笔资金将用于推动其首批产品上市、构建先进的基础设施,并加速未来技术的研发。

  2. 5 月 28 日,AIGC 科技企业 爱设计 宣布完成 B1 轮融资。本轮融资由 A 股上市公司视觉中国领投,星连资本和 36 氪跟投,这是爱设计在短短 4 年内获得的第四轮融资。此次融资资金将主要用于人工智能技术、内容版权供应体系、国内外用户增长和核心人才的引入等方面。

  3. 5 月 29 日,中央网信办、市场监管总局、工业和信息化部近日联合印发《信息化标准建设行动计划(2024—2027 年)》。计划提出要完善人工智能标准,强化通用性、基础性、伦理、安全、隐私等标准研制。加快推进大模型、生成式人工智能标准研制。

  4. 5 月 29 日,联想集团宣布已获得沙特公司 Alat 的 20 亿美元战略投资。此次投资将加速联想在中东和非洲市场的扩张,推动其全球业务增长,同时也有助于联想增强财务实力,进一步巩固其作为全球领先的科技公司的地位。

  5. 5 月 29 日,OpenAI 宣布成立安全与安保委员会。这是 OpenAI 在近期面临了一系列的人事变动后做出的调整,这一系列人事变动包括联合创始人兼首席科学家 Ilya Sutskever 的离职以及“超级对齐”团队的解散。这一新成立的委员会将加强公司在 AI 技术开发与应用中的安全性和道德责任,由公司内部的关键成员领导,并计划引入外部专家提供咨询和支持。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。购买票数越多,享受的优惠也就越丰厚,可以联系票务经理 17310043226 , 锁定最新优惠。



2024-06-04 12:144566

评论

发布
暂无评论
发现更多内容

产品愿景设计:解锁团队潜能,引领市场竞争优势

L3C老司机

产品设计 数字化转型 设计思维 产品设计与思考 产品愿景

小程序SDK的发展趋势与未来展望

FinFish

小程序 APP开发 小程序容器 超级app

Service初涉

梦笔生花

android service

Flutter和小程序容器技术的应用前景与发展潜力

FinFish

flutter 小程序容器 小程序技术

历史性的时刻!OpenTiny 跨端、跨框架组件库正式升级 TypeScript,10 万行代码重获新生!

Kagol

typescript 开源 Vue 3 Vue3 Typescript OpenTiny

浅谈Data Driven Testing

QE_LAB

测试 数据驱动测试

Flutter 异步编程指南

京东科技开发者

flutter dart 异步任务编程 APP开发 企业号 4 月 PK 榜

Selenium Grid作用是什么?Selenium Grid的使用过程?

测吧(北京)科技有限公司

测试

使用 Lambda Web Adapter 在 Lambda 上 构建 web 应用

亚马逊云科技 (Amazon Web Services)

Amazon

释放Go Mutex的威力:编写线程安全代码的技巧和诀窍

Jack

集成技术,大山里的金子

阿呆

使用NSIS打包超大型软件的几个注意事项

大伟

AI自然语言处理的过去和未来

鲸品堂

自然语言处理 ChatGPT 企业号 4 月 PK 榜

模块八作业 - 消息队列存储消息数据的 MySQL 表格

🐢先生

架构实战营

Themis Pro版将正式推出,3次迭代到底在酝酿什么?

鳄鱼视界

HTTP与HTTPS的区别

测吧(北京)科技有限公司

测试

面对ChatGPT,中国AI可以不疾不徐不焦虑

脑极体

AI

敏捷看板管理工具哪个好?

爱吃小舅的鱼

项目管理 Kanban管理

Themis Pro版将正式推出,3次迭代到底在酝酿什么?

股市老人

有关提升代码质量的思考

阿呆

Alibaba最新“618,双十一”亿级并发系统设计(2023版小册开源)

架构师之道

Java 编程 高并发

博睿数据中海油多云资源监控与治理案例荣膺云数大会年度优秀实践案例

博睿数据

可观测性 智能运维 博睿数据 精选案例

新思科技:车联网产业的起点是安全

InfoQ_434670063458

车联网 新思科技 汽车安全

Flutter 使用 CustomPaint 绘制基本图形

岛上码农

flutter ios 安卓 移动端开发 跨平台开发

IotLink版本更新V1.10.0

山东云则信息科技

Redis事务

京茶吉鹿

nosql redis

OceanBase入选啦!金融信创优秀解决方案(第二期)

OceanBase 数据库

数据库 oceanbase

IT采购,不再默默扛下“背刺”

白洞计划

AI 联想

三次迭代终放“大招”,Themis Pro版即将问世

BlockChain先知

C# 世界的《Effective C++》,来自.Net之父的核心揭秘

博文视点Broadview

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章