AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

  • 2024-06-04
    北京
  • 本文字数:4656 字

    阅读完需:约 15 分钟

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

上周,大模型领域聚焦于方言技术,两大突破性进展备受瞩目。商汤科技推出了商量(SenseChat)粤语版大模型,这不仅代表了人工智能在方言领域的深入探索,也体现了对地区语言文化的重视。商汤宣布,将于 7 月 1 日向粤语用户开放粤语版网页及 APP,并承诺永久免费,这无疑将极大地方便粤语用户的日常交流和使用。

其次,中国电信人工智能研究院发布了星辰超多方言语音识别大模型,作为业内首个支持 30 种方言自由混说的模型,它打破了传统模型的局限,能够同时识别和理解包括粤语、上海话、四川话、温州话等在内的多种方言。这一创新为方言的语音识别领域树立了新的标杆。这些创新的推出,不仅推动了大模型技术在方言识别和处理方面的进步,也为地区文化的传承与保护提供了坚实的技术基础。

二、具体内容

大模型持续更新

开源领域

  1. 5 月 28 日,浪潮信息发布「源 2.0-M32」(MOE)开源大模型。“源 2.0-M32”在基于“源 2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为 37 亿。

  2. 5 月 28 日,北京大学和 Colossal-AI 团队共同推出新一代开源视频生成模型「 Open-Sora-Plan v1.1」,它在视频生成的质量和时长方面有了显著提升,能够生成最长约为 21 秒的视频,并优化了 Causal Video VAE 架构以提高性能和推理效率,并展示了包括文生视频和视频编辑在内的多种功能。此外,Open-Sora-Plan v1.1.0 也已经支持使用国产 AI 计算系统(如华为昇腾)进行完整的训练和推理。

  3. 5 月 29 日,法国 AI 初创公司 Mistral AI 发布编程大模型 Codestral,支持 80 多种编程语言,包括 Python、Java、C、C++,JavaScript、Bash、Swift 等。

  4. 5 月 30 日,涂鸦智能在 2024 TUYA 全球开发者大会上,发布其首个 AI 大模型 Cube Al 以及三款 AI 开发工具(AI 开发者平台、AI 分析师工具、AI 应用终端)、AI 小程序开发底座。 Cube Al 凭借涂鸦生态的设备和开源大模型能力,可以为智慧场景提供 AI 技术价值,能实时分析能源消耗并生成最优节能策略,助力实现工业、商业及家庭的智慧节能。

多模态领域

  1. 5 月 25 日,中国电信人工智能研究院发布业内首个支持 30 种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等 30 多种方言,是国内支持最多方言的语音识别大模型。

  2. 5 月 25 日,广联达在 2024 年中国数字建筑大会上发布了建筑行业 AI 大模型 AecGPT ,该模型基于海量行业数据和先进 AI 技术,拥有卓越的建筑行业分析能力,能广泛应用于建筑全生命周期的各个阶段,提升工作效率,为建筑行业数字化发展提供强大支持。

  3. 5 月 27 日,一款多语言手语模型 SignLLM 发布。该产品的主要功能在于通过文字描述生成手语视频,能够支持包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语。SignLLM 的引入不仅为听力障碍者提供了一种新的沟通方式,使他们能够更直观地理解和表达信息,同时也推动了人工智能在语言理解和生成领域的研究。

  4. 5 月 29 日,基于 5.0 大模型,商汤科技推出了商量(SenseChat)粤语版大模型并正式对外。商汤在同日宣布旗下应用产品商量粤语版网页及 APP 将于 7 月 1 日向粤语用户开放并永久免费。商量粤语 API(应用程序编程接口)现已开放,最大支持 128K 窗口,根据模型输入和输出量计费,每 100 万 tokens 收费 30 港元。

  5. 5 月 29 日,一款开源的文本到语音(TTS)模型 ChatTTS 正式发布,该产品专为对话场景设计,主要功能包括将输入的文本转换为自然流畅的语音,支持中文和英文,并具备预测和控制细粒度韵律特征的能力,如笑声、停顿等。

  6. 5 月 29 日,一款全新的开源视觉大语言模型 Llama3-V 发布。该模型具备跨模态任务处理能力,能融合视觉与文本信息,实现高效执行。同时,Llama3-V 开源了所有相关资源,为开发者提供了创新空间。

  7. 5 月 30 日,快手自研文生图大模型「可图」已于近日正式对外开放。其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用,这也是快手首次将其自研的系列大模型对外开放。

应用探索

新产品新应用/功能

  1. 5 月 25 日,强大的 AI 音乐生成工具 Suno 3.5 发布。相较于 3.0 版本,此次发布的 3.5 版本支持长达 4 分钟的完整曲目创作,并具备智能优化音乐结构、个性化定制以及从声音到声音的转换能力。此外,它还特别为快节奏制作环境设计了快速生成短曲目的功能,是音乐创作者的得力助手。

  2. 5 月 27 日,Stability AI 推出一款功能全面的聊天机器人 Stable Assistant ,它融合了强大的文本和图像生成技术,如 Stable Diffusion3 和 Stable LM2 12B,能够根据用户的提示和需求生成高质量的图像和视频内容,为用户提供了从文字到图像、视频的全方位创作体验。同时,它还提供了灵活的订阅计划和便捷的服务,让用户能够根据自己的需求随时选择使用。

  3. 5 月 27 日,小度科技全新发布小度学习机 Z30,凭借其基于文心大模型的强大能力,不仅为孩子提供全面、有效的学习辅导,更是一位能够引导孩子学习的智能伙伴。同时,其护眼设计和高性能配置更是保证了孩子的健康与学习的顺畅进行,树立了学习机行业的新标杆。

  4. 5 月 28 日,衔远科技推出 MODI 摹小仙 AI 营销大脑,这是一款一站式的 AI Native 营销自动化底座模型,它结合通专融合技术,在营销洞察、创意策划、内容生产和营销转化方面展现出显著优势,适用于多种营销场景,为企业提供全链路营销智能创作,助力品牌企业实现高效、精准的营销效果。

  5. 5 月 29 日,优编程携手悉之智能发布了全球首个信息学编程教学 AI 模型——优香农大模型。该模型利用先进的大语言模型和多模态交互技术,旨在通过 AI 自动生成高质量教学内容、提供个性化学习指导和实时互动反馈,从而革新传统教育模式,有效解决信息学编程教育中的师资短缺、教学负担重等问题,推动 AI 技术在教育领域的应用和发展。

  6. 5 月 30 日,腾讯公司推出基于混元大模型的 AI 助手 App 腾讯元宝。该应用集成了 AI 搜索、AI 总结、AI 写作等强大功能,旨在通过先进的 AI 技术,为用户提供高效的工作效率和丰富多彩的日常生活体验。在用户体验方面提供了如口语陪练、创建个人智能体等特色功能,此外,腾讯元宝还具备处理复杂信息的能力,如一次性深度解析多个微信公众号链接、网址以及多种格式的文档,使得处理信息更为高效便捷。

  7. 5 月 30 日,百度文库在苏州的移动生态万象大会上宣布推出 AI 原生应用「橙篇」,这帮助用户实现对“超大量、超多格式、超长内容”的文件进行快速理解、总结与问答以及长文本的生成、深度编辑等自由创作。据百度文库透露,百度文库 AI 功能使用次数已超过 15 亿。

  8. 5 月 30 日,Topaz Labs 推出了新的 udio-130 音乐生成模型。该模型可生成长达两分钟的音频,为音乐创作提供了长期连贯性和结构性的支持。同时,新增了随机种子设置、剪辑开始时间控制等功能,让用户能更精准地定制和剪辑音轨。

智能体

  1. 5 月 25 日,在第七届数字中国建设峰会上,蚂蚁集团正式开源多智能体框架 agentUniverse,这是行业首个开源的金融领域多智能体技术框架,该框架核心提供了多智能体协作编排组件,允许开发者对多智能体协作模式进行开发定制,可帮助开发者加快大模型技术在金融场景的落地研发。

  2. 5 月 28 日,若愚科技推出精心开发的若愚·九天机器人大脑,其在无人厨房领域展现出卓越性能。这款大脑借助多模态大模型驱动的群体智能技术,实现了机器人间的高效协同与任务的自主规划与执行,不仅具备强大的泛化能力,还能精准执行复杂动作,为无人厨房带来了前所未有的智能化、高效化操作体验。

终端 AI

  1. 5 月 30 日,吉利汽车正式发布了联合星纪魅族共同打造的「银河 Flyme Auto」智能座舱系统。同时,吉利还联合 Flyme Sound Inside 发布了行业首个 AI 智能音响系统 ——“Flyme Sound 无界之声”。据悉,银河 Flyme Auto 与 Flyme Sound 都将在吉利银河全新产品上应用搭载,并根据不同车型需求作针对性开发定制。

其他

  1. 5 月 27 日,埃隆·马斯克旗下的人工智能初创公司 xAI 在其官方博客中宣布获得 60 亿美元 B 轮融资。马斯克在 X 平台上称,公司此轮融资投前估值已达 180 亿美元。此次融资由多家知名投资机构参与,如 Valor Equity Partners、Vy Capital 和 Andreessen Horowitz 等。这笔资金将用于推动其首批产品上市、构建先进的基础设施,并加速未来技术的研发。

  2. 5 月 28 日,AIGC 科技企业 爱设计 宣布完成 B1 轮融资。本轮融资由 A 股上市公司视觉中国领投,星连资本和 36 氪跟投,这是爱设计在短短 4 年内获得的第四轮融资。此次融资资金将主要用于人工智能技术、内容版权供应体系、国内外用户增长和核心人才的引入等方面。

  3. 5 月 29 日,中央网信办、市场监管总局、工业和信息化部近日联合印发《信息化标准建设行动计划(2024—2027 年)》。计划提出要完善人工智能标准,强化通用性、基础性、伦理、安全、隐私等标准研制。加快推进大模型、生成式人工智能标准研制。

  4. 5 月 29 日,联想集团宣布已获得沙特公司 Alat 的 20 亿美元战略投资。此次投资将加速联想在中东和非洲市场的扩张,推动其全球业务增长,同时也有助于联想增强财务实力,进一步巩固其作为全球领先的科技公司的地位。

  5. 5 月 29 日,OpenAI 宣布成立安全与安保委员会。这是 OpenAI 在近期面临了一系列的人事变动后做出的调整,这一系列人事变动包括联合创始人兼首席科学家 Ilya Sutskever 的离职以及“超级对齐”团队的解散。这一新成立的委员会将加强公司在 AI 技术开发与应用中的安全性和道德责任,由公司内部的关键成员领导,并计划引入外部专家提供咨询和支持。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。购买票数越多,享受的优惠也就越丰厚,可以联系票务经理 17310043226 , 锁定最新优惠。



2024-06-04 12:144887

评论

发布
暂无评论
发现更多内容

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

网易伏羲

多模态 网易伏羲 VLP CMITR

6 大推荐给开发者的无代码工具

NocoBase

无代码开发 无代码

首批搭载豆包大模型量产车型 smart精灵5即将发布

新消费日报

加密市场再遭重创:多重利空因素引发超10亿美元抛售潮

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

模块化叙事的演变:DeFi借贷开发的模块化转型

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

基于MySQL内核的SQL限流设计与实现|得物技术

得物技术

MySQL 数据库 企业号2024年7月PK榜

MongoDB快速使用,详细且实用(一)

XIAOJUSURVEY

数据库 mongodb

锡耶纳大学与 NocoBase:教育管理系统的全新篇章

NocoBase

无代码开发 教育管理 无代码 无代码平台

你知道哪些Python 中删除文件的方法?

秃头小帅oi

Sensei for Mac(好用的系统优化清理工具)v1.5.9中文激活版

Rose

针对一个有意思的钓鱼免杀样本的详细分析

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 信息安全 网安

API 接口测试的发展前景展望

Noah

24年广西具有资质等保测评公司汇总

行云管家

广西 等保 等级保护

MongoDB工程配置入门(二)

XIAOJUSURVEY

Java mongodb Node nestjs

进修总结汇报ppt怎么做?用这3款AI工具一键快速生成!

彭宏豪95

效率工具 职场 PPT 办公软件 AI生成PPT

如何在本地运行大型语言模型?

神州数码

数据可视化中的个性化定制设计

inBuilder低代码平台

基于51单片机设计的井下瓦斯监控系统

DS小龙哥

8月月更

电商数据洞察:淘宝与天猫商品详情API的深入解析与应用

代码忍者

Waves Complete 12 for mac(全套音频效果处理工具)完美破解版资源

Rose

中文大模型竞争从普通话扩展到方言了?电信、商汤先后出招 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章