9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

阿里云通义千问开源!70 亿参数模型上线魔搭社区,免费可商用

  • 2023-08-03
    北京
  • 本文字数:1112 字

    阅读完需:约 4 分钟

阿里云通义千问开源!70亿参数模型上线魔搭社区,免费可商用

通义千问开源!8 月 3 日,AI 模型社区魔搭ModelScope上架两款开源模型 Qwen-7B 和 Qwen-7B-Chat,阿里云确认其为通义千问 70 亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问 7B 模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文 7B 开源模型。

今年 4 月,阿里云推出自研大模型通义千问,引发井喷式的市场需求。此次小型化模型版本开源,有望抹平模型使用门槛,让海量中小企业和 AI 开发者更早、更快地用上通义千问。这一举动也让阿里云成为国内首个加入大模型开源行列的大型科技企业。


Qwen-7B 是支持中、英等多种语言的基座模型,在超过 2 万亿 token 数据集上训练,上下文窗口长度达到 8k。Qwen-7B-Chat 是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对 Qwen-7B 和 Qwen-7B-Chat 的量化,支持用户在消费级显卡上部署和运行模型。


用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用 Qwen-7B 和 Qwen-7B-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。



通义千问 7B 预训练模型在多个权威基准测评中表现出色,中英文能力远超国内外同等规模开源模型,部分能力甚至“跃级”赶超 12B、13B 尺寸开源模型。


在英文能力测评基准 MMLU 上,通义千问 7B 模型得分超过一众 7B、12B、13B 主流开源模型。该基准包含 57 个学科的英文题目,考验人文、社科、理工等领域的综合知识和问题解决能力。


在中文常识能力测评基准 C-Eval 上,通义千问在验证集和测试集中都是得分最高的 7B 开源模型,展现了扎实的中文能力。相比英文世界热闹的 AI 开源生态,中文社区缺少优秀的基座模型。通义千问的加入有望为开源社区提供更多选择,推动中国 AI 开源生态建设。



在数学解题能力评测 GSM8K、代码能力评测 HumanEval 等基准上,通义千问 7B 模型也有不俗表现,胜过所有同等尺寸开源模型和和部分大尺寸开源模型。


阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。


开源生态对促进中国大模型的技术进步与应用落地至关重要。今年 7 月,阿里云宣布将促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供智能算力、开发工具等全方位服务。2022 年阿里云牵头发起 AI 模型社区魔搭,以 AI 模型为核心服务 AI 开发者。目前,魔搭聚集了 20 多家顶尖人工智能机构贡献的 1000 多款开源模型,已经成为中国大模型开源第一门户。

 

附:开源地址


魔搭 ModelScope:

https://modelscope.cn/models/qwen/Qwen-7B/summary

https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary


Hugging Face:

https://huggingface.co/Qwen


GitHub:

https://github.com/QwenLM/Qwen-7B

 

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2023-08-03 15:032548
用户头像
赵钰莹 InfoQ 主编

发布了 847 篇内容, 共 559.3 次阅读, 收获喜欢 2640 次。

关注

评论

发布
暂无评论
发现更多内容

在AI与信息交互之间:QQ 浏览器的边界探索

脑极体

Mysql探索(一):B-Tree索引

程序员历小冰

MySQL 索引 28天写作

基于云的技术架构设计实践-第0篇

hackstoic

云计算 架构 云原生 创业公司 签约计划第二季

反脆弱漫谈

木风

质量管理 技术管理 28天写作

架构实战总结

Geek_fc100d

「架构实战营」

微博系统中“微博评论”的高可用高性能架构

AHUI

「架构实战营」

浪潮云说直播间-云溪数据库之ClickHouse原理解析今晚开讲

浪潮云

云计算,

和12岁小同志搞创客开发:手撕代码,做一款节拍电子鼓

不脱发的程序猿

少儿编程 DIY 智能硬件 创客开发 Arduino

新公司安排的工作做不来怎么办?是不是该离职了?

石云升

28天写作 职场经验 12月日更

继续跑步

wood

创业 跑步

智慧社区服务平台搭建,智慧安防社区建设方案

电微13828808271

Java问题排查分享

捉虫大师

Java 问题排查

不要再给我发Helvetica字体的文件了!

IT蜗壳-Tango

28天写作 12月日更

模块五作业 ”微博评论“的高性能高可用计算架构

小朱

架构实战营

云原生:详解|容器核心技术解析

息之

Docker 镜像 技术优势

Python Qt GUI设计:QCalendar日历类和QDateTimeEdit时间类(基础篇—20)

不脱发的程序猿

Python qt GUI设计 QCalendar日历类 QDateTimeEdit时间类

工业区块链与关键关联技术融合创新

CECBC

模块九作业

Geek_fc100d

「架构实战营」

深度参与,亲身体验,谨慎接受

mtfelix

28天写作 必然 未来趋势 2022开年学习

王者荣耀商城异地多活架构设计

胡颖

架构实战营

Java基础系列:反射

正向成长

Java 反射

[架构实战营] 模块五作业

张祥

架构实战营

模块五作业

ks

架构实战营

由《组织行为学》讲义想到的两个问题(1/28)

赵新龙

TGO鲲鹏会 28天写作

31 K8S之StatefulSet控制器

穿过生命散发芬芳

k8s 28天写作 12月日更

云原生:详解|容器云平台应用解析

息之

容器安全 容器应用

高层与基层思考上的差异与解决办法

光环PMO社群

项目管理

10个问题解答火热的元宇宙概念

CECBC

Java 项目中使用 Resilience4j 框架实现隔断机制/断路器

码语者

Java circuit break 断路器 Resilience4j 隔断机制

毕业设计-电商秒杀系统

小智

「架构实战营」

TypeScript 之常见类型(上)

冴羽

JavaScript typescript 翻译 大前端

  • 扫码添加小助手
    领取最新资料包
阿里云通义千问开源!70亿参数模型上线魔搭社区,免费可商用_阿里巴巴_赵钰莹_InfoQ精选文章