写点什么

又一家清华系 AI 公司“杀入”大模型赛道!百亿 token 免费用,简单拖拽可精调 20+ 大模型

  • 2024-03-31
    北京
  • 本文字数:3561 字

    阅读完需:约 12 分钟

大小:1.79M时长:10:26
又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型

3 月 31 日,无问芯穹在上海举办了一场以“多元计算·泛在链接”为主题的 AI 算力优化论坛暨产品发布会,无问芯穹发起人汪玉携联创团队首次集体公开亮相,并发布“无穹 Infini-AI”大模型开发与服务平台。上海市经济和信息化委员会副主任张宏韬、上海市徐汇区科学技术委员会主任张宁出席并致辞。多家国产大模型、算力芯片与硬件公司、智算机构高管现身,另有红杉中国、真格基金、徐汇资本与启明创投等多家创投机构代表出席。

 

发布会现场,汪玉教授首先谈及了创办无问芯穹的初心。在当前的教育和科研环境中,高校独立完成科学研究任务变得越来越困难。为了在激烈的竞争中生存并保持领先地位,高校必须展现出其强大的实力。然而,在这个过程中,大学所能做的事情受到了限制,尤其是在科研基础设施和资源方面。

 

必要的计算能力和制造平台的缺失限制了技术的发展。在芯片设计和研究领域,没有强大的平台支持,就难以推动研究的深入,甚至不知道关键问题所在。在这种情况下,即使完成了研究,发表了论文,这些成果也难以转化为实际生产力。高校在科研生产资料方面已经不再具备优势,必须与产业界紧密结合。

 

就这样,才有了今天的无问芯穹。那么,无问芯穹到底能帮助行业和用户解决什么问题?

 

一句话概括,就是希望帮助所有做大模型的团高性价比地落地大模型,助力大模型赋能千行百业。

算力难,有解法吗


有人调侃,比起“造福人类”,大模型更应该先呼吁“给我场景”。

 

无问芯穹认为恰恰相反,经历了互联网时代的高速发展,中国市场不缺应用场景,大模型的落地难,症结在于行业内正在持续遭遇的算力难题。想在成熟场景中应用大模型的企业,找到了算力但不会用,无法做出差异化的产品实现业务升级;想创造 AI-Native 应用的企业,算力成本难负担,工具链也不好用,产品启动投产比不合理;自行训练模型的企业,随着业务的拓展,往往找不到也买不起所需体量的算力,业务运行成本过高。

 

截至 2023 年年末,我国算力总规模达到每秒 1.97 万亿亿次浮点运算(197E FLOPs),位居全球第二,算力规模近 5 年年均增速近 30%。如此增速,为何行业内仍然感到算力尤其难?实际上背后的原因是,人工智能行业发展恰逢工程师人才红利爆发,加速了我国大模型行业的蓬勃发展,需求端“嗷嗷待哺”,而市面上仍存在大量未被收集和充分利用的算力资源,缺少一种足够成体系的“大模型原生”商业模式,将算力供给转化为满足市场需求的产品和服务。


无问芯穹认为,如果能够有效整合和优化这些算力资源,并设计出好的利用方式和工具,将极大地缓解大模型企业们面临的算力紧缺状况,帮助他们把今天的算力储备,转化为明天的竞争力。

让开发者花小成本、用好工具和充沛算力

 

会上,无问芯穹发布了基于多芯片算力底座的无穹 Infini-AI 大模型开发与服务平台,并宣布自 3 月 31 日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿 tokens 免费配额。



 开发者可以在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,就能精调出更贴合业务的大模型并部署在无穹 Infini-AI 上,再以非常优惠的千 token 单价向用户提供服务。

 

目前,无穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 闭源模型、Llama2、Qwen、Qwen1.5 系列等共 20 多个模型,以及 AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹 Infini-AI,并获得细粒度定制化的按 token 计费方案。



 “我们对模型品牌和芯片品牌的覆盖率还会持续提升,随着时间的推移,无穹 Infini-AI 的性价比优势会越来越突出。”无问芯穹联合创始人兼 CEO 夏立雪表示,未来无穹 Infini-AI 还将支持更多模型与算力生态伙伴的产品上架,让更多大模型开发者能够‘花小钱、用大池’,持续降低 AI 应用的落地成本。

 

一个月前,同道猎聘在部分城市发布了 AI 驱动的数字人面试官,且还有更多的 AI 功能正在筹备中,是由无问芯穹提供的弹性算力使用方案,并在无问芯穹的平台上基于开源大模型微调而成。相比市面上的其他方案,实现了更高的推理加速,也大幅降低了新功能上线的成本。

 

夏立雪表示,这一效果让无穹团队很有信心,所以除了开放全量注册,也正式启动了大算力需求方的测试邀请,提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。

 

算力性价比大幅提升,源自多芯片优化实力

 

“市面上有很多未被激活的有效算力,硬件本身差距在快速缩小,但大家在使用时总会遇到‘生态问题’。”夏立雪说,这是因为硬件的迭代速度总是比软件更慢、价格更高,软件开发者不希望工作中出现除自身研发工作之外的其他“变量”,因而总是会倾向于直接使用有成熟生态的芯片。



 无问芯穹希望帮助所有做大模型的团队“控制变量”,即在使用无问芯穹的算力服务时,用户不需要也不会感觉到底层算力的品牌差异。

 

成立不足一年的无问芯穹,何以能够在这么短时间内跑通多种计算卡上的性能优化?

 

2022 年底,大模型引发社会广泛关注后,夏立雪和他的导师汪玉认为,国内整体算力水平距离国际先进还有明显差距,光靠芯片工艺提升或是多元芯片的迭代已远远不够,需要建立一个大模型生态系统,让不同模型能自动部署到不同硬件上,让各种算力得到有效利用。

 

一年后,无问芯穹宣布了在英伟达 GPU 和 AMD 等芯片上取得的优化效果,取得了当时最好的计算加速效果,实现了大模型任务 2-4 倍的推理速度提升。随后,AMD 中国宣布与无问芯穹达成战略合作关系,双方将携手联合提高商用 AI 应用性能。



 两年之后,无问芯穹在本次发布会上展示了其在 10 种芯片上的性能优化数据,在每张卡上都显示已取得了目前行业内最优的性能优化效果。

 

“我们与各个模型、芯片伙伴都建立了强信任关系,”夏立雪对记者说:“一方面来自于我们面向大模型的计算优化实力,另一方面无问芯穹非常注重保护伙伴的数据安全。无问芯穹会持续保持中立性,并且也不会与客户产生利益冲突,这是我们业务开展的基础。”

从云到端,将软硬件一体联合优化进行到底

 

“Transformer 统一了这一轮的模型结构,并且表现出持续取得应用突破的趋势。”汪玉在开场发言中说:“从前我们在 AI 1.0 时代,做上一家公司,只能做很小一部分 AI 任务。今时不同往日,大模型结构统一了,依靠生态建立起来的硬件壁垒正在‘变薄’。”

 


得益于世界范围内正涌起的 AI 浪潮,以及中国市场的独特机会,无问芯穹面对的是一次巨大的技术机遇。Transformer 在设计时天然基于并行计算架构,规模越大的大模型带来的智能效果越好,使用的人越多,其所需的计算量也越大。


 “无问芯穹正在做的是‘大模型原生’的加速技术栈。”无问芯穹的联合创始人兼 CTO 颜深根表示,大模型落地依赖算法、算力、数据,还有系统。算力决定了大模型的速度,设计优良的系统则能释放出更多硬件潜力。无问芯穹的团队曾搭建过数万片 GPU 级的大规模高性能 AI 计算平台,具备万卡纳管能力,并基于自运营集群成功搭建了云管系统,已实现跨域多云间的统一调度。

 

“在端侧,人们则更加倾向于快速将大模型的能力落到人机交互的界面上,提升实用体验。”无问芯穹联合创始人兼首席科学家戴国浩认为,未来,凡是有算力的地方,都会有 AGI 级别的智能涌现。而每一个端上的智能来源,就是大模型专用处理器 LPU。戴国浩宣布,“无穹 LPU 将于 2025 年面世。”


大模型处理器 LPU 可以提升大模型在各种端侧硬件上的能效与速度。戴国浩在发布会上向观众展示了“一张卡跑大模型”,作为 LPU 的基础,其团队于今年 1 月初推出的全球首个部署于 FPGA 的大模型推理 IP,通过大模型高效压缩的软硬件协同优化技术,使得 LLaMA2-7B 模型的 FPGA 部署成本从 4 块卡减少至 1 块卡,并且性价比与能效比均高于同等工艺 GPU。未来,无问芯穹的端侧大模型专用处理器 LPU,可以被模块化地集成到各类端侧芯片中。

 

发布会尾声,无问芯穹宣布与紫光展锐签署大模型端侧部署战略合作,双方宣布将共同探索大模型在端上的部署与性能提升。


此外,无问芯穹还宣布了与燧原科技共同发布 i20 千卡集群战略合作,无穹 Infini-AI 平台与燧原科技 i20 千卡集群已顺利完成完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用燧原科技智算集群,完成大模型推理任务。

 

同时,无问芯穹宣布与摩尔线程签署战略合作备忘录,双方将开展深度合作。目前无穹 Infini-AI 平台和基于摩尔线程大模型智算加速卡 MTT S4000 的千卡集群已顺利完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用摩尔线程夸娥千卡智算集群,完成大模型高效训练与微调任务。


无问芯穹还宣布与智谱 AI 联合发布大模型万卡训推计划,双方将携手共建大模型训推万卡集群,在大模型训练推理优化、算力集群性能提升等方面展开深度合作。


该万卡集群将面向大模型行业应用,提供端到端模型与算力服务,围绕技术创新和产业发展需求,以算力集群赋能行业创新。

 

2024-03-31 23:002581
用户头像
李冬梅 加V:busulishang4668

发布了 963 篇内容, 共 560.6 次阅读, 收获喜欢 1119 次。

关注

评论

发布
暂无评论
发现更多内容

软件测试 | Sonarqube maven分析

测吧(北京)科技有限公司

测试

ListView简单实用

芯动大师

ListView baseadapter stackfrombottom

Docker 环境搭建

流火

Docker

2022 IoTDB Summit:中冶赛迪工业互联网平台与CISDigital-TimeS(基于IoTDB)在钢铁行业的实践

Apache IoTDB

大数据 开源 IoTDB

阿里云函数计算助力高德 RTA 广告投放系统架构升级

Serverless Devs

Serverless 高德

GPT-3/ChatGPT复现的经验教训

OneFlow

人工智能 深度学习 GPT-3 ChatGPT

IntelliJ IDEA中提高代码开发效率的10个快捷操作

京东科技开发者

var java 企业号 3 月 PK 榜 psvm sout

你应该了解哪些延迟数字?

Kian.Lee

I/O Latency CPU 寄存器 RAM SDD L1\L2\L3

C++ 线程池

王玉川

c++ 编程语言 多线程 线程池

用友成为铸基计划-2022标准建设贡献单位!

用友BIP

2022 IoTDB Summit:宝武智维徐少锋《Apache IoTDB 在宝武装备远程智能运维平台中的使用案例》

Apache IoTDB

大数据 时序数据库 IoTDB

软件测试 | Sonarqube scanner使用

测吧(北京)科技有限公司

测试

Jetpack-Compose 学习笔记(一)—— Compose 初探

修之竹

android Compose android jetpack

Spring进阶:定义bean时容易踩的两个坑,连老手也容易犯错

程序员拾山

spring

推荐这5个很牛的开源项目,程序员直呼内行

引迈信息

开源 低代码

软件测试 | 测试左移代码分析

测吧(北京)科技有限公司

测试

好用的数据校验&修复工具gt-checksum开源啦

GreatSQL

greatsql社区 gt-checksum

软件测试 | Sonarqube架构

测吧(北京)科技有限公司

测试

Matlab实现小波变换

timerring

图像处理 数字图像处理

2022 IoTDB Summit:IoTDB PMC 乔嘉林《端边云协同:Apache IoTDB 全新单机分布式架构》

Apache IoTDB

4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

汀丶人工智能

自然语言处理 数据标注 实体抽取

【Java优化实战】「微基准系列」带你脚踏实地的进行开发和使用JMH测试和提升应用程序和服务指南

洛神灬殇

Java JMH 3月日更 JMH性能基准测试

四步走搭建自己的专属 ChatGPT(附开源代码)| 社区征文

FN0

AI 话题广场 ChatGPT

这样在 C# 使用 LongRunnigTask 是错的

newbe36524

C# Docker Kubernetes

英特尔公司高级副总裁、中国区董事长王锐: 下一个中国是中国!

科技之家

放弃网站不是明智之举,中小企业要选择适合自己的营销模式

石头IT视角

设计模式之美—接口隔离

GalaxyCreater

设计模式

5分钟部署百台云上计算机,22支参赛队伍快速接入南网电力调度AI应用大赛

云布道师

无影云电脑

软件测试 | 常见覆盖率统计工具

测吧(北京)科技有限公司

测试

1行Python代码,把PPT转成图片,python-office功能更新~

程序员晚枫

Python Office 自动化办公

三天吃透SpringMVC面试八股文

程序员大彬

Java spring springmvc

又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型_机器学习/深度学习_李冬梅_InfoQ精选文章