HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

又一家清华系 AI 公司“杀入”大模型赛道!百亿 token 免费用,简单拖拽可精调 20+ 大模型

  • 2024-03-31
    北京
  • 本文字数:3561 字

    阅读完需:约 12 分钟

大小:1.79M时长:10:26
又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型

3 月 31 日,无问芯穹在上海举办了一场以“多元计算·泛在链接”为主题的 AI 算力优化论坛暨产品发布会,无问芯穹发起人汪玉携联创团队首次集体公开亮相,并发布“无穹 Infini-AI”大模型开发与服务平台。上海市经济和信息化委员会副主任张宏韬、上海市徐汇区科学技术委员会主任张宁出席并致辞。多家国产大模型、算力芯片与硬件公司、智算机构高管现身,另有红杉中国、真格基金、徐汇资本与启明创投等多家创投机构代表出席。

 

发布会现场,汪玉教授首先谈及了创办无问芯穹的初心。在当前的教育和科研环境中,高校独立完成科学研究任务变得越来越困难。为了在激烈的竞争中生存并保持领先地位,高校必须展现出其强大的实力。然而,在这个过程中,大学所能做的事情受到了限制,尤其是在科研基础设施和资源方面。

 

必要的计算能力和制造平台的缺失限制了技术的发展。在芯片设计和研究领域,没有强大的平台支持,就难以推动研究的深入,甚至不知道关键问题所在。在这种情况下,即使完成了研究,发表了论文,这些成果也难以转化为实际生产力。高校在科研生产资料方面已经不再具备优势,必须与产业界紧密结合。

 

就这样,才有了今天的无问芯穹。那么,无问芯穹到底能帮助行业和用户解决什么问题?

 

一句话概括,就是希望帮助所有做大模型的团高性价比地落地大模型,助力大模型赋能千行百业。

算力难,有解法吗


有人调侃,比起“造福人类”,大模型更应该先呼吁“给我场景”。

 

无问芯穹认为恰恰相反,经历了互联网时代的高速发展,中国市场不缺应用场景,大模型的落地难,症结在于行业内正在持续遭遇的算力难题。想在成熟场景中应用大模型的企业,找到了算力但不会用,无法做出差异化的产品实现业务升级;想创造 AI-Native 应用的企业,算力成本难负担,工具链也不好用,产品启动投产比不合理;自行训练模型的企业,随着业务的拓展,往往找不到也买不起所需体量的算力,业务运行成本过高。

 

截至 2023 年年末,我国算力总规模达到每秒 1.97 万亿亿次浮点运算(197E FLOPs),位居全球第二,算力规模近 5 年年均增速近 30%。如此增速,为何行业内仍然感到算力尤其难?实际上背后的原因是,人工智能行业发展恰逢工程师人才红利爆发,加速了我国大模型行业的蓬勃发展,需求端“嗷嗷待哺”,而市面上仍存在大量未被收集和充分利用的算力资源,缺少一种足够成体系的“大模型原生”商业模式,将算力供给转化为满足市场需求的产品和服务。


无问芯穹认为,如果能够有效整合和优化这些算力资源,并设计出好的利用方式和工具,将极大地缓解大模型企业们面临的算力紧缺状况,帮助他们把今天的算力储备,转化为明天的竞争力。

让开发者花小成本、用好工具和充沛算力

 

会上,无问芯穹发布了基于多芯片算力底座的无穹 Infini-AI 大模型开发与服务平台,并宣布自 3 月 31 日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿 tokens 免费配额。



 开发者可以在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,就能精调出更贴合业务的大模型并部署在无穹 Infini-AI 上,再以非常优惠的千 token 单价向用户提供服务。

 

目前,无穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 闭源模型、Llama2、Qwen、Qwen1.5 系列等共 20 多个模型,以及 AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹 Infini-AI,并获得细粒度定制化的按 token 计费方案。



 “我们对模型品牌和芯片品牌的覆盖率还会持续提升,随着时间的推移,无穹 Infini-AI 的性价比优势会越来越突出。”无问芯穹联合创始人兼 CEO 夏立雪表示,未来无穹 Infini-AI 还将支持更多模型与算力生态伙伴的产品上架,让更多大模型开发者能够‘花小钱、用大池’,持续降低 AI 应用的落地成本。

 

一个月前,同道猎聘在部分城市发布了 AI 驱动的数字人面试官,且还有更多的 AI 功能正在筹备中,是由无问芯穹提供的弹性算力使用方案,并在无问芯穹的平台上基于开源大模型微调而成。相比市面上的其他方案,实现了更高的推理加速,也大幅降低了新功能上线的成本。

 

夏立雪表示,这一效果让无穹团队很有信心,所以除了开放全量注册,也正式启动了大算力需求方的测试邀请,提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。

 

算力性价比大幅提升,源自多芯片优化实力

 

“市面上有很多未被激活的有效算力,硬件本身差距在快速缩小,但大家在使用时总会遇到‘生态问题’。”夏立雪说,这是因为硬件的迭代速度总是比软件更慢、价格更高,软件开发者不希望工作中出现除自身研发工作之外的其他“变量”,因而总是会倾向于直接使用有成熟生态的芯片。



 无问芯穹希望帮助所有做大模型的团队“控制变量”,即在使用无问芯穹的算力服务时,用户不需要也不会感觉到底层算力的品牌差异。

 

成立不足一年的无问芯穹,何以能够在这么短时间内跑通多种计算卡上的性能优化?

 

2022 年底,大模型引发社会广泛关注后,夏立雪和他的导师汪玉认为,国内整体算力水平距离国际先进还有明显差距,光靠芯片工艺提升或是多元芯片的迭代已远远不够,需要建立一个大模型生态系统,让不同模型能自动部署到不同硬件上,让各种算力得到有效利用。

 

一年后,无问芯穹宣布了在英伟达 GPU 和 AMD 等芯片上取得的优化效果,取得了当时最好的计算加速效果,实现了大模型任务 2-4 倍的推理速度提升。随后,AMD 中国宣布与无问芯穹达成战略合作关系,双方将携手联合提高商用 AI 应用性能。



 两年之后,无问芯穹在本次发布会上展示了其在 10 种芯片上的性能优化数据,在每张卡上都显示已取得了目前行业内最优的性能优化效果。

 

“我们与各个模型、芯片伙伴都建立了强信任关系,”夏立雪对记者说:“一方面来自于我们面向大模型的计算优化实力,另一方面无问芯穹非常注重保护伙伴的数据安全。无问芯穹会持续保持中立性,并且也不会与客户产生利益冲突,这是我们业务开展的基础。”

从云到端,将软硬件一体联合优化进行到底

 

“Transformer 统一了这一轮的模型结构,并且表现出持续取得应用突破的趋势。”汪玉在开场发言中说:“从前我们在 AI 1.0 时代,做上一家公司,只能做很小一部分 AI 任务。今时不同往日,大模型结构统一了,依靠生态建立起来的硬件壁垒正在‘变薄’。”

 


得益于世界范围内正涌起的 AI 浪潮,以及中国市场的独特机会,无问芯穹面对的是一次巨大的技术机遇。Transformer 在设计时天然基于并行计算架构,规模越大的大模型带来的智能效果越好,使用的人越多,其所需的计算量也越大。


 “无问芯穹正在做的是‘大模型原生’的加速技术栈。”无问芯穹的联合创始人兼 CTO 颜深根表示,大模型落地依赖算法、算力、数据,还有系统。算力决定了大模型的速度,设计优良的系统则能释放出更多硬件潜力。无问芯穹的团队曾搭建过数万片 GPU 级的大规模高性能 AI 计算平台,具备万卡纳管能力,并基于自运营集群成功搭建了云管系统,已实现跨域多云间的统一调度。

 

“在端侧,人们则更加倾向于快速将大模型的能力落到人机交互的界面上,提升实用体验。”无问芯穹联合创始人兼首席科学家戴国浩认为,未来,凡是有算力的地方,都会有 AGI 级别的智能涌现。而每一个端上的智能来源,就是大模型专用处理器 LPU。戴国浩宣布,“无穹 LPU 将于 2025 年面世。”


大模型处理器 LPU 可以提升大模型在各种端侧硬件上的能效与速度。戴国浩在发布会上向观众展示了“一张卡跑大模型”,作为 LPU 的基础,其团队于今年 1 月初推出的全球首个部署于 FPGA 的大模型推理 IP,通过大模型高效压缩的软硬件协同优化技术,使得 LLaMA2-7B 模型的 FPGA 部署成本从 4 块卡减少至 1 块卡,并且性价比与能效比均高于同等工艺 GPU。未来,无问芯穹的端侧大模型专用处理器 LPU,可以被模块化地集成到各类端侧芯片中。

 

发布会尾声,无问芯穹宣布与紫光展锐签署大模型端侧部署战略合作,双方宣布将共同探索大模型在端上的部署与性能提升。


此外,无问芯穹还宣布了与燧原科技共同发布 i20 千卡集群战略合作,无穹 Infini-AI 平台与燧原科技 i20 千卡集群已顺利完成完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用燧原科技智算集群,完成大模型推理任务。

 

同时,无问芯穹宣布与摩尔线程签署战略合作备忘录,双方将开展深度合作。目前无穹 Infini-AI 平台和基于摩尔线程大模型智算加速卡 MTT S4000 的千卡集群已顺利完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用摩尔线程夸娥千卡智算集群,完成大模型高效训练与微调任务。


无问芯穹还宣布与智谱 AI 联合发布大模型万卡训推计划,双方将携手共建大模型训推万卡集群,在大模型训练推理优化、算力集群性能提升等方面展开深度合作。


该万卡集群将面向大模型行业应用,提供端到端模型与算力服务,围绕技术创新和产业发展需求,以算力集群赋能行业创新。

 

2024-03-31 23:002529
用户头像
李冬梅 加V:busulishang4668

发布了 943 篇内容, 共 537.2 次阅读, 收获喜欢 1105 次。

关注

评论

发布
暂无评论

银行兴起数字极简风:“智能手机App恐惧症”终于有救了

CECBC

LabVIEW机器视觉系统图像畸变、校准和矫正(基础篇—3)

不脱发的程序猿

机器视觉 图像处理 LabVIEW 系统图像畸变、校准和矫正

SRE实战(03)|Clickhouse在好大夫服务治理中应用

方勇(gopher)

大数据 APM Clickhouse 构架

知识回顾:抽象类与抽象方法

喵叔

28天写作 12月日更

怎么组织一场活动

圣迪

活动 SOP

忆父亲

wood

28天写作 父亲

Fortinet :《2021 年OT与网络安全现状报告》 之「要点综述」

喀拉峻

网络安全

Kubernetes中的亲和性与反亲和性

xcbeyond

kubernete 28天写作 12月日更

Kubernetes 与 OpenYurt 无缝转换(命令式)

阿里巴巴云原生

阿里云 容器 云原生 openyurt

【CSS 学习总结】第八篇 - CSS 布局-居中布局-垂直居中布局

Brave

CSS 12月日更

Golang的通道基础(一)

liuzhen007

28天写作 Go 语言 12月日更

年终加薪

张老蔫

28天写作

基于kali的域控环境搭建——黑盒测试环境搭建

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

持续集成背后的思考

夏兮。

ci 方法论 持续集成 jenkins

价值

搬砖的周狮傅

价值观

年底了,聊聊述职

CatTalk

职场

Go 软件设计之道

宇宙之一粟

Go 语言 12月日更

HarmonyOS(鸿蒙)——启动流程

李子捌

鸿蒙 28天写作 21天挑战 12月日更

如何监控测量你的代码

耳东@Erdong

监控 Prometheus

Golang的通道入门(二)

liuzhen007

go语言 28天写作 12月日更

如何促进用户首次下单?

石云升

AARRR 产品思维 28天写作 产品增长 12月日更

27《重学JAVA》--反射

杨鹏Geek

Java 25 周年 28天写作 12月日更

架构实战营 第 4 期 模块三作业

架构实战营 模块三 构架 「架构实战营」

流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时数仓

腾讯云大数据

flink Clickhouse 流计算 Oceanus

Flink 实践教程-进阶(5):排序(乱序调整)

腾讯云大数据

流计算 Oceanus

消极自由 与 积极自由

mtfelix

28天写作

都2022年了,这个20篇Linux内存管理的期刊论文,你读了吗?

奔着腾讯去

Linux Kenel 内存映射 内存池 内存页

SRE02|管中窥豹,微服务可用性监控之道

方勇(gopher)

微服务 SRE 微服务治理 构架

Elasticsearch 可搜索快照技术原理及最佳实践

腾讯云大数据

Elastic Search

政法重点关注人员管控系统开发,跨部门大数据办案平台建设

a13823115807

目标加个零(28/28)

赵新龙

28天写作

又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型_机器学习/深度学习_李冬梅_InfoQ精选文章