写点什么

民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?

  • 2025-02-27
    北京
  • 本文字数:3319 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:40
民间大神魔改4090 48G秒杀5090!老黄显卡炒作被打脸,“最失败50系显卡”也支棱起不来了?

近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。

 

B 站上也早就有 UP 主对魔改版 4090 48G 显卡进行了初步测评,称这款显卡重量较大,显卡满载功率可达 450 瓦,原本运行 20 多分钟的工作流在该款显卡上仅需一分半。“在赛博绘图视频制作领域堪称顶级选择。满血的顶级算力搭配专业卡级别的显存,是非常不错的组合。如果后续改装水冷,将更具优势。”根据其他网友使用,4090 48G 显卡还可以支持 FP8,在游戏方面则与常规卡没有差别。

 

这款显卡也已经出走海外。来自加拿大的小哥在平台上晒出了自己在 eBay 上买的 RTX 4090 48G,让网友给出测试建议。eBay 官网显示,4090 48G 的售价要 3 万人民币起步。

 


现在,市面上还传出了 4090 96GB 版本已经被搓出来的消息,有人贴出了闲鱼上的预购消息和配置图,据说价格在 3700 美元左右(2.6 万人民币)。



不过,Slamtec 创始人兼 CTO  Tony Huang 对此在推特上表示,“这应该不可能,4090 的上限就是 384bit/16bit*16Gbit GDDR6 = 48G”。

如何做到的?

 

要得到 4090 48G 显卡需要几步?网传有三个步骤:一、找一块 3090 的板子,挖掉核心;二、找一块 4090 的板子,挖掉核心,然后把这个核心焊到 3090 的板子上;三、再焊接更多对应显存到板子上,实现 48G。

 

上面是很诙谐的说法,但在闲鱼上确实能找到很多 4090 无核心、无显存的显卡板,被戏称为“4090 显卡手办”,价格在 100 元上下不等。

 

实际上,4090 魔改 48G 过程中还有一个关键的步骤,即显卡 bios。bios 是存储在显卡 ROM 芯片中的固件程序,可以初始化显卡硬件参数,协调 GPU/显存/供电模块协同工作。

 

知乎答主“宅叔”表示,“其实就是传言流出来那版 vbios,没有那版 vbios,就没有后续的 48G。vbios 有数字签名会和芯片内的安全芯片作相互校验,因此绕不过去,而在 2023 年流出来了一个工具,可以把不同品牌的 vbios(有数字签名版)互刷,所以拿到 48G 的 vbios 就等于有了 48G 的 4090,无非是如何搬板,甚至有能力可以重新设计一张 PCB 来扩张。换句话说,如果未来有更大显存容量的 bios 流出,原则上也可以做更大显存的卡。”

 

有网友分析,3090 芯片发售时,显存颗粒最大 1GB,24GB 显存需要 24 颗,PCB 板正反面都有。4090 芯片发售时,显存颗粒达到 2GB,24GB 显存只需要 12 颗,PCB 板只有一面有焊盘。突然某一天,从英伟达总部流出 4090 48GB 改版显卡 bios,正好发现 4090 针脚定义和 3090 一样,可以焊在 3090 PCB 上。这样,4090 芯片+3090 PCB+24 颗 2GB 显存+流出魔改显卡 bios=4090 48GB 显卡。据悉,大概一张卡的工本费要 5500 元左右。

 

有网友对比 A100 80G 的生成速度实际就比 4090 48G 快 20%,但是价格却贵了 6 倍多。目前已经有公司推出主打性价比的 4090 48G 推理 GPU 方案,帮助进行 DeepSeek 部署。另一方面,这也推动了 4090 显卡价格居高不下。

 

个人用户使用 4090 48G 跑 DeepSeek 的配置截图

 

4090 48G 不是最近才出现的,目前还没有用户曝出大问题。不过对于魔改卡,部分人还是比较谨慎,“魔改卡的工艺还是赶不上原厂卡。一般焊锡不是无铅高温的,常出现脱焊、爆锡等问题。第二,保修也是个问题,后期还管不管保修都不知道。个人玩家还是算了。”

 

模型苦“显存”久矣

 

看起来只是单纯扩大了显卡显存,但对于实际应用来说可能意义很大。

 

根据 AI 开发人员 Piyush Kashya 的计算,FP16 精度的 7B 参数模型至少需要 16.8GB 的​​ GPU 内存。类似地,haotian-liu 在 GitHub 上回答开发者提问时表示,通常 7B 参数的模型可以使用内存小于 24GB 的 GPU 运行,而 13B 参数模型大约需要 32 GB 内存。

 

显存大小限制了人们使用更大参数的模型,因此很多人用小模型或量化版本。但对于多模态模型,如 Flux 等的运行上,显存制约让很多人感到使用不便。

 

深度学习的训练过程中,GPU 显存溢出也是经常出现的问题。为此,人们通常使用减少训练批次大小、数据并行等方式来减少 GPU 内存的使用。GPU 内存优化也一直是厂商在做的事情。

 

另一方面,英伟达当前在企业级卡和消费级卡之间设置了明显的技术鸿沟。

 

比如,在计算能力方面,RTX 4090 属于 Ada Lovelace 架构,16384 个 CUDA 核心,由 128 个 SM 组成。H100 则为 Hopper 架构,16896 个 CUDA 核心和 528 个 4.0Tensor 核心,阉割了对图像渲染至关重要的光追核心(RT Core),多了 FP64 的处理单元。

 

而在多卡互联方面,4090 不支持 GPU 间直接通信,必须通过 CPU 中转,而 H100 可以借助 Nvlink 等进行卡间高速通信,支持 RDMA、GDS(GPU 存储直接访问)。值得注意是的,RTX 30 系列中只有 RTX 3090 支持 NVLink。

 


鉴于 DeepSeek 的热度,NVIDIA 发布了 DeepSeek R1 的量化版本 DeepSeek R1 FP4。借助对 Blackwell 架构的 TensorRT DeepSeek 优化(包括具备最先进生产精度的 FP4 性能),该模型实现了推理速度提升 25 倍、每 token 成本降低 20 倍的效果。



详情可查看:https://huggingface.co/nvidia/DeepSeek-R1-FP4

 

50 系显卡翻车?

 

大家对 4090 48G 的热情,也源于对英伟达“挤牙膏”发布的 50 系显卡的失望情绪。有 UP 主测评对比后表示,“4090 48G 秒杀 5090”。

 

“50 系是十年来最失败的一代显卡,这点是板上钉钉的,因为其存在重大缺陷,并且是前代已有的缺陷,并没有修复;而由于暴力拉规模导致故障风险扩大,大部分 5090 将在三年左右坏掉,故障为烧供电击穿核心。”有网友评价称。

 

与前代 4090 相比,5090 定价几乎翻了一番,而整个 RTX 50 系列产品的价格也都居高不下,此后还被炒出天价。消费者普遍认为这样的价格难以接受,尤其是考虑到性能的提升并不足以支撑售价翻倍。在质疑声中,黄仁勋直言不讳地表示,RTX 5090 的目标用户群体是那些追求顶级性能体验的发烧友,对他们而言,价格并不是首要考虑的因素。这一发言也引起了更大的不满。

 

而自发货以来,50 系被曝出的问题可太多了。截至目前,RTX 5090 已知问题包括:12 针电源接口熔化、黑屏、丢失 ROP(光栅单元)、电容烧毁、可靠性差等,还有用户遇到了错版问题。

 

其中,比较严重的就是 ROP 丢失问题。外媒 TechpowerUP 报道称,他们在 RTX 5090 评测样品上发现了 ROP 缺失问题,这源于 ZOTAC RTX 5090 样品测试中的运行速度要比其他样品慢。事实证明,该卡的 ROPS 仅为 168,而 ROPS 的官方规格数量为 176,后来发现几乎所有 AIB 都有这个问题。

 

5090 上缺少 ROP 单元导致游戏性能损失 4-5%。根据目前尚无法完全确认该问题是制造缺陷还是 bios 问题,但前者似乎更有可能,还有人猜测是老黄的管理出现了问题。而根据网友“MEGAsizeGPU”的说法,问题不在 bios 上,而在核心的 GB202 芯片上。

 


后来,英伟达公关总监 Ben Berraondo 紧急发声:这属于极个别芯片体质问题,对 AI 运算毫无影响,游戏性能平均损失仅 4%。但外媒表示,所谓缺少 1 个 ROP 为文字游戏,实际缺失量高达 8 个,英伟达将每个 ROP 单元的像素处理能力换算成虚拟单位,营造参数虚高的假象。

 

英伟达的 RTX 50 系列显卡是该公司最棘手的发布之一,这个论断并不过分。此次发布在多个环节出现重大失误:初期上市阶段,GeForce RTX 5090 在多家零售商的库存量持续是个位数,这种刻意控量供应策略导致实际供给不足,而需求激增主要源于黄牛抢购和高端硬件发烧友的追捧。值得注意的是,库存短缺也并非是英伟达 GPU 芯片产能不足导致的,推测问题可能出在封装测试环节、物流调度系统或渠道分配策略等深层供应链环节上。

 

外媒表示,50 系列显卡在市场上缺货的原因是英伟达正在进行“饥饿营销”。GPU 库存完全充足,但英伟达控制供应不释放库存,从而制造出短缺的假象。实际上,到四月或五月,GPU 将会大量释放。

 

参考链接:

 

https://www.zhihu.com/question/11803840385

https://www.bilibili.com/video/BV1RQfpYkEcg/?spm_id_from=333.337.search-card.all.click&vd_source=c7202342f6677650b47938178c8bfb3a

https://www.reddit.com/r/LocalLLaMA/comments/1iwhfl5/comment/medyq2f/

https://github.com/haotian-liu/LLaVA/issues/191

https://wccftech.com/nvidia-is-suppressing-inventory-levels-for-high-end-rtx-50-series-gpus/

2025-02-27 14:2110820

评论

发布
暂无评论

Hoo虎符研究院 | 投资前沿——过去一周顶级投资机构动向

区块链前沿News

虎符 Hoo 虎符交易所 区块链投资

一条 Git 命令减少了一般存储空间,我的服务器在偷着笑

沉默王二

架构实战营-毕业设计

瓜子葫芦侠

「架构实战营」

LeetCode每日一题 No.1716 计算力扣银行的钱

DawnMagnet

算法 rust LeetCode 力扣

技术管理养成:一个普通的在线文档做瀑布与敏捷的融合

dclar

团队管理 项目管理 敏捷开发 团队协作 CTO

ReactNative进阶(十九):React Native 按钮 Touchable 系列组件使用详解

No Silver Bullet

​React Native 1月月更 Touchable

第一节:创建SpringBoot项目并运行HelloWorld

入门小站

springboot

消息积压&消息丢失解决方案

JavaEdge

1月月更

网站安全检测:推荐8款免费的 Web 安全测试工具

喀拉峻

网络安全

kafka Controller作用

石头哥谈架构

大数据 kafka 消息中间件

Go 语言快速入门指南: Go 并发互斥锁

宇宙之一粟

并发 Go 语言 互斥锁 1月月更

设计电商秒杀系统

Mars

架构实战营 「架构实战营」

架构实战-毕业设计项目

无名

架构实战营 「架构实战营」

[架构实战营] 模块六作业

Geek_0ed632

「架构实战营」

连续读书1000天,我开始思考一篇好的读书总结是什么样子的

宇宙之一粟

读书总结 1月月更

好家伙!你这网络基础可以啊!1️⃣

XiaoLin_Java

1月日更

渗透测试思路总结

网络安全学海

黑客 信息安全 渗透测试 安全漏洞

盘点 2021|人只有跌入谷底,每一步都是往上走的。

踏雪痕

生活 盘点2021 盘点 2021

「offer来了」1张思维导图,6大知识板块,带你梳理面试中CSS的知识点!

星期一研究室

css3 前端开发 面试题 面试‘ HTML5, CSS3

记中山公园全马--一场无准备的马

wood

跑步 300天创作

大数据集群节点磁盘负载不均衡怎么办?

明哥的IT随笔

大数据 hadoop CDH CDP

架构训练营 - 模块 9 作业

焦龙

架构训练营

设计电商秒杀系统

Steven

架构实战营

zip文件自动打包

你?

15 Promethus之核心组件介绍

穿过生命散发芬芳

Prometheus 1月月更

为什么您的企业需要移动CRM系统

低代码小观

移动 CRM CRM系统 客户关系管理系统 企业管理工具

云原生训练营 毕业总结

张大彪

云原生

电商秒杀系统设计

天天向上

架构实战营

当使用Vue2+Babel时,如何实现组件重新渲染

吴脑的键客

Vue babel

“微博评论”高性能高可用计算架构设计

swallowluo

架构实战营 #架构实战营 「架构实战营」

【微博评论】功能的高性能高可用计算架构设计

红莲疾风

「架构实战营」

民间大神魔改4090 48G秒杀5090!老黄显卡炒作被打脸,“最失败50系显卡”也支棱起不来了?_芯片&算力_褚杏娟_InfoQ精选文章