写点什么

英特尔前雇员讲述:50 年老厂是如何走上“挤牙膏”之路的?

  • 2020-08-17
  • 本文字数:6432 字

    阅读完需:约 21 分钟

英特尔前雇员讲述:50年老厂是如何走上“挤牙膏”之路的?

最近,英特尔决定将芯片制造外包,由于其未来 CPU 将采用的 7nm 芯片,技术进度较目标落后约 12 个月。对此,很多人表示意料之中。彭博社评论称,此举预示着一个由英特尔公司和美国主导世界半导体行业的时代的终结。



在英特尔首席执行官鲍勃·斯旺(Bob Swan)宣布“英特尔考虑将芯片生产外包,而不是自己生产”后不久,一位退休人士(前英特尔雇员)回顾了英特尔在过去十年是如何走向今天这步田地的。对晶体管密度的痴迷,以及对实施具有挑战性的 GAA FET 制造工艺的执著追求等是英特尔仍然停留在 14 nm 制程的主要原因。 那么,台积电真的能在未来的岁月提供帮助吗?



图片截取自原文。截至发稿,其本人在 Facebook 发布的相关内容已变为“加密”状态

英特尔的芯片制程发展史

英特尔在 7nm 延迟的情况下重组技术团队,以及外包给台积电的决定,乍看可能很突然,但这些动作由来已久。这位英特尔前雇员曾在产品团队工作,并有机会与制程团队合作。这两个团队经常碰面,八卦其他团队,比如技术制造组(Technology Manufacturing Group,TMG)是一个封闭、纪律严明的军事化团队,许多成员都“累得像狗一样”,导致人员流失率居高不下。


TMG 对于英特尔来说功不可没,因此,在过去六年,英特尔的 CEO 们都不敢打它的主意。Sohail 一直是 TMG 的负责人,直到 2018 年被 Muthry 解雇,他手下的“大将”们就轮流担任每一代制程的负责人。


2012 年,英特尔 的 22 nm 制程当时在世界领先,由 Kaizad 负责。Kaizad 在这个过程中立了大功,坚持采用 Tick-Tock 模式的 CPU 生命周期(即先更改制程,再更改架构)。当时,台积电经常到美国物色有才华的专家,并举办晚宴,希望说服一些英特尔员工跳槽到台积电。


2014 年是英特尔的转折点。那年上半年,英特尔的 CPU 本应跃升至 14 nm 制程,但却卡在 22 nm 上了。这个延迟改变了 CPU 的生命周期,使其变成了 Tick-Tock-Tock 模式。负责 14 nm 制程的 Sanjay 在 2015 年被解雇。可见,无论是过去还是现在,负责下一代制程工程的负责人都是一份高风险、高回报的工作。14 nm 的 Broadwell CPU 终于在 2014 年下半年上市,但从那时起,延迟上市成了常态,Tick-Tock 模式变成了 Tick-Tock-Tock 模式。“到现在,没有人谈论 Tick-Tock 了,只有 TikTok。”


Kaizad 在 2017 年重新掌管 10 nm 制程的研发,尽管他尽了最大努力,但由于已经堆积如山的延误,事情再次变得更糟。英特尔的高层一向沉迷于晶体管的密度。重心已经慢慢转向到最佳密度的交付上,而台积电和三星在微型化制程上的进步并没有真正困扰英特尔。这种思路在过去的 14 nm 以下是有效的,但在追求更小的尺寸上,显然会给设计过程带来复杂的问题。


最初的 10 nm 太过激进,TMG 团队需要加班加点。但这并没有真正起到帮助作用,因为 TMG 最终无法在约定的时间框架内实现预期的收益率。对于 CPU 设计部门来说,TMG 的所有设计都显得过于复杂,以至于他们不得不解决各种奇怪的错误。这反过来又导致了研发过程的放缓。因此,工作环境变得越来越恶劣,结果造成更多延误,更多系统性问题,并且已经工作多年的系统看起来似乎即将崩溃。


进展到这一步,生机出现了。英特尔的图形和移动团队能够提供 10 nm 实现,并强调密度,以安抚高层。然而,目前,英特尔在台式机和服务器领域的 14 nm 制程基本停留在 Tick-Tock-Tock-(Tock) 循环中,随着第 11 代和第 12 代移动 CPU 的发布,10 nm 制程的产量几乎没有攀升。


当 Kaizad 还在 10 nm 制程中挣扎着让一切处于可控范围时,许多来自不同小组(特别是 CPU 团队)的人离开了。由于 CPU 团队人手严重不足,设计开始落后。


大约一年前,英特尔曾计划向 7 nm 制程过渡,并让 Chia-Hong 负责。然而,由于 10 nm 工艺存在的所有问题,英特尔决定放宽 7 nm 节点的限制,尽管新工艺需要使用革命性的 闸极全环(Gate-All-Around FET,GAA)FET 制造工艺。台积电和三星曾警告英特尔,GAA FET 技术目前实施难度太大,但由于英特尔的骄傲和坚持,非要尝试解决 GAA FET 的问题不可,直到今年 7 月份才最终承认这一点。最初的 7 nm 芯片设计现在需要进一步优化,英特尔正试图与台积电达成协议。

英特尔为什么找台积电代工?

英特尔为什么找台积电代工?要先说清楚,找台积电代工有两种情况:一种是当初收购进来的公司本来就用着台积电的 28nm 制程,这纯粹属于计算需要,没有必要转换;二是英特尔本身的问题。


要知道产能的规则是环环相扣的,一个环节出现问题就会对未来造成影响,等 TD 把制程方案调出来,开始小量试产,一边调整良率,一边 design team 提早一两年开始设计,最后在约定的时间完工,将设计图交给晶圆厂,开始一层一层光罩慢慢做,几周后生产、封装、测试然后交货。


理想状况下,英特尔 10nm 制程应该发展顺畅,一边是 14nm 厂量产,另一边是 10nm 厂慢慢热身准备就绪,等到良率达标就可以开始接单了,design team 在 10nm 上也差不多设计好了,然后 10nm 大门一开,谁先上?GT(Graphic)图形处理的架构比较一致,设计周期比较短,可以比较快地出设计蓝图,然后 CPU、Server 陆续进去,10nm 产量持续增加,14nm 慢慢腾出产能,接下来呢?


要知道英特尔 10 万大军去掉 TMG/CPU/Server,还有很多松散的外围组件也需要晶片,这些部门很多都是前 CEO BK 挥霍老本买进来的败家收藏,像是原本还算有点名气但逐渐被人遗忘的 FPGA 公司 Altera(改名 PSG),为了重返手机市场荣耀买进来的英飞凌无线部门(改名 ICDG)等。总之就是山头林立,无奇不有。


更有甚者,还有一些不知道什么原因默默在英特尔里沉浮的浪人团队,这些浪人团队曾经也是有头有脸的正规组织,但是这些组织被解散了(像英特尔一时兴起的晶圆代工:Intel Custom Foundry)。设计部门的领导为了手下员工的生计,只好在英特尔里面帮人打工,譬如 Server 部门要做什么人手不够,就暂时让浪人团队来接这个活,如果面临太多纷争,比如印度班加洛人喜欢夸口一切都没问题把活抢走了,或者马来西亚干起活来不要命的工程师,那只能摸摸鼻子去接一些别人捡剩的朝不保夕的活,像是帮中国的中兴 ZTE 做芯片,每天看脸色等着项目被撤销。


总之,这些部门就按照公司获利贡献的重要程度来决定要不要排进去 10nm 或者继续用 14nm 的多余产能。


结果,世事难料,10nm 产能空转,所有部门只好继续占用 14nm 的产能,最惨的情况来了,TMG 里面负责支撑研发的部门是 TD,TD 本来就处在人人过劳的极限状态,以前 14nm 弄好了,主力就去弄 10nm 了,留下一小批人力维护 14nm,然后再分出一小队精锐先锋去 7nm,现在 14nm 要继续搞,还要搞 14nm+,14nm++(所谓的挤牙膏),那分给 10nm 的人就少了,7nm 就更少了,硬生生地让自己越陷越深。


现在,14nm 的产能都给了公司的 CPU/Server,那其他剩下的部门怎么办?日子还是要过,IC 还是要出货,为了求生路,大家就纷纷发难。相对大一点的 ICDG(通信与设备事业部)就跳出来说,我们在英飞凌时代就在用台积电,合作愉快,让我们继续用吧。AIPG(人工智能产品事业部)说我们的 AI 芯片不能等,有很多数据等着训练,竞争对手都甩我们好几条街了,所以我们一定要用最好的制程,没有英特尔的 10nm 就给我 TSMC 7nm,竟然连一些帮 Server 系统做周边芯片的小咖说话都大声起来,不让我们用外部芯片,Server 也出不了货,大家要死一起死。


到了这种地步,英特尔有其他选择吗?开放给台积电下单是不得已而为之的解决方法,英特尔身为一家上市公司,对股东有盈利的义务,但盈利不代表一定要靠自己生产晶片。

下单台积电给英特尔带来的副作用

制程卡关虽然不好,但是对英特尔来说其实没有真的伤到筋骨,英特尔的本业 CPU/Srever 几十年打下来的江山很牢固,尤其是 Server 已经把市场牢牢地抓在手里,再加上 10nm 产能慢慢上来,AMD 虽然奋起直追,但是真的要追上来还有一段时间。


事实上,英特尔比较大的问题是设计部门的抱负太大,思想过于封闭僵化,跟不上变化,早晚有一天会遇上瓶颈。当制程落后和设计瓶颈同时到来的那天,城池可能就守不住了。这也是为什么 8K 要在 2015 年找来 Murthy(除旧),2018 年再找来 Raja Koduri 和 Jim Keller(布新)。找 Murthy 来就是要给公司震撼教育和动手术的,Murthy 一上任就巡了一遍所有山头,看到不配合的主管就拉下来,然后顺势往下动刀,不赚钱的 group,砍!表现不好的 EVP/VP/director,砍!没钱景的 project,砍!每砍完一刀,就把整个单位直接收编归他管辖,砍到后来连制程部门都收服了。


新官上任还真有一点新气象的感觉,不过什么事情做过了头总会出问题的,Murthy 忘了动手术是要用手术刀而不是菜刀,把肿瘤跟肥肉切掉,不能顺便在身体里插出一堆洞来。2015 年砍了 12000 名员工就是一个很失败的裁员行动,裁掉了很多好员工,从此士气大落。


其实之所以找 Murthy 来动刀,就是因为除了制程部门外,设计部门也需要好好整顿。


英特尔的设计部门就像一台载了沉重包袱的牛车,慢慢地往前走,越走包袱越多,偶尔有人提出丢掉一些包袱,但是声音马上就被压下去,没有主事者都不敢承担包袱丢掉的风险,反正一路走来都是这样,大锅饭吃的好好的,何必没事找事。


先不提 IP/Library 设计,就举 design flow 的例子,英特尔 CPU 的底层电路的实作精神就是手刻电路,在关键的 block 里,每一条 data path,每一个 cell,每一条 net 都要很精准的控制,务必要把多余的一丝丝 delay 都榨出来,然后每一代靠着制程的进步来把 CPU 整体速度往上挤一点。然而业界的 EDA TOOL 一直在进步,自动化能够达到的效能已经慢慢追上手刻,英特尔也用这些 TOOL,但在使用哲学上就是,不管工具有多少新功能,就只拿其中一部分来实现英特尔现有的客制化 flow 里的功能,其实无可厚非,毕竟最关键的部分必须很小心的做好,但是绝大部分的 block 都不需要这样设计,如果 flow 是围绕着手刻哲学叠上去的,就会对大部分的 block 造成负担。


这样的负担,英特尔有办法靠大量地 DA(design automation)人力吃下来,再靠 S 提供的服务(毕竟英特尔是 S 的衣食父母,此处推测可能为“新思科技股份有限公司 Synopsys”)来让 flow 继续运作下去,但是整体来说,就是处在一种危险的平衡下,再加上英特尔的山头越来越多,所谓天下 flow,合久必分,分久必合,每几年就有人提议把所有的 flow 都并到中央单位,但是久了以后各山头又嫌中央 flow 不好用,自己偷偷搞起内部 flow,久而久之,英特尔的 flow 就变成一只庞然巨兽,想改都不知道从何改起。


在 B(手机/平板 soc)时期,英特尔力图振作,搞了一个算是和业界有接轨的 flow,整个设计理念也比照业界 soc,但是公司史上所有只要不是正统 CPU 的 project,夭折率都很高,B 也不例外,在 2016 年宣告放弃。


笨重的牛车继续蹒跚地向前行,走到了分岔路,14nm 产能不够,各山头要出走台积电的时候。


当时还存在的通讯部门说,数据机两年后要下单台积电,然后交货给某手机公司,你让我开牛车一定到不了,给我一支重骑兵,中央 flow team 哪儿敢说不好,立马分兵引进 S 给小公司专用的轻量级 flow,然后把一些英特尔特有的东西加上去,通讯部门带了粮草就上路了,内部 flow 从此一分为二:给英特尔制程专用的 flow,还有给台积电制程专用的 flow。flow team 的人力有变多吗?有没有听过一个笑话,老板请你用 50% bandwidth 做 A,50% bandwidth 做 B,最后就是 200% bandwidth 做 AB。


Server 的 IP 部门说要给某网络公司做一个样品,一年半后交货,我也不要坐牛车,给我一支轻骑兵就好,但是有一部分我想试试 C(此处推测可能为“Cadence Design Systems, 益华电脑股份有限公司”),因为有一些外面招来的员工说 C 才是业界最流行的 。 flow team 想想上面大老板正在强调要拥抱变化,公司又在推行 dual source(C/S 并存),上面交代了那就搞吧,所以 flow 正式二分为四,但是 flow team 的人力有变多吗?你知道的。


重骑兵和轻骑兵都各自出征了,然后都被消灭了(项目被取消了)。


打了败仗,结果是什么?几年的人力经费打水漂,后勤支援体系(memory,IO,library)不堪负荷,flow team 的 DA 苦不堪言,S 不弃不离了那么多年,换来了 dual source 的结局,满肚子委屈。


这只是改用台积电之后带来的其中一个副作用,IP 和 library 就更不用说了,晶片设计产品的规则都是三五年以上,大军未动粮草先行,假设三年后要出货,那所有的东西都要在预定的时间到位,产能要先预定好,IP/library 开发要提早准备,人力要找齐,flow 也要先定下来,以下为假设情况,如果你告诉 project 负责人,三年后那颗 IC 你用台积电 7nm 出货,五年后那颗有可能英特尔 7nm 也有可能台积电 5nm,也可能两个都用。project 负责人只好根据每一种情况做准备,排列组合之后有多少种可能?Gantt chart 大概好几页都画不下,英特尔长期以来的成功就是专注,一手抓制程,一手抓设计,照自己的步调慢慢走,就算设计部门过于保守,也还应付的来。现在变成多头马车的快攻,但是设计思维又没有跟上外界,很多时候就力不从心。


用台积电在现阶段是一个必须,但是 50 年老店英特尔还没有做好心理准备,曾经有一个人看出了这个问题,一个最擅长扭转局势,战无不胜的大将之才,可惜 Jim Keller(明星芯片架构师)来了又走了。

英特尔 CEO 眼中的公司

在 Robert Swan(罗伯特 · 斯旺)正式继任 CEO 以来,英特尔内部会议室所有笔记本和显示器上整齐划一地出现一句新标语:“One Intel(一个英特尔)”。从 Swan 就职公开信中可以提炼出这样的信息: 英特尔目前的处境可谓内忧外患,需要改变运营方式和企业文化,以适应日新月异的市场变化。


对内,Swan 表示,多年来,英特尔上下对公司联合创始人 Gordon Moore 提出的(戈登·摩尔)“摩尔定律”(摩尔定律是指芯片上可容纳的晶体管数量每两年左右可以翻一番,性能也将提升一倍)推崇备至,甚至有些过于迷信这一规律。按照摩尔定律推算,英特尔早在 2015 年就应该生产出 10 nm 芯片,然而,事实是直到 2019 年中,英特尔才努力将芯片的电路尺寸减小到 10 nm。


这一技术进展延迟的背后暴露了英特尔的过度自信以及对客观事实理解不准确的问题。 英特尔首席技术官 Mike Mayberry(迈克·梅伯里)表示,工程师们已经承诺要设计出容纳晶体管数量是原来 2.7 倍的芯片,这是一次冒险的尝试,需要先进的技术支持。但 Swan 说, 芯片制造部门领导们很少对高管人员汇报技术相关数据,这种沟通的断层影响了技术进展。


除了缺乏必要的沟通,Swan 还表示,公司的经理人们也因久处于英特尔统治地位的温床而缺少忧患意识。他们在竞争中轻敌自满,不关心外部环境,反而对内部预算问题斤斤计较。


由于当前新冠疫情并未结束,英特尔的经济也因为疫情受到了影响。此外,竞争对手迅速崛起也是英特尔面临的主要挑战之一。


近年来,竞争对手 AMD 等公司的崛起让 Swan 意识到了危机。在更强调性能的服务器市场,英特尔巅峰时全球市场占有率高达 99%,AMD 则不足 1%。但据市场情报公司 Mercury Research 于 2019 年底发布的有关 x86 处理器市场的调查结果显示,AMD 在台式机 x86 处理器市场上占有 18.3%的份额。曾经因没有迭代处理器架构而被英特尔“踩在脚下”的 AMD 也因其于 2017 年推出的“Zen”架构处理器渐渐扭转乾坤。


台积电和三星也开始为英特尔的竞争对手制造芯片。由于没有采用新的生产工艺以及对某些产品需求的异常增长判断失误,英特尔没有足够的生产能力为计算机制造足够的芯片,这也成为阻碍其发展的原因之一。


以上种种,让 Swan 充分意识到,在 官僚主义成风,内部不够团结,外部竞争激烈,竞争对手对其统治地位虎视眈眈的情况下,只有先内求团结,才能外求发展。


尽管英特尔已经意识到了企业发展中存在的问题并且也做出了相应调整,尽管这些文化变革进行至今已经展现出了一定的成效,尽管人们认为英特尔已经重新找回了正确的发展方向,但遗憾的是,这种转变所带来的红利仍需数年才能在财务收益上显示出来。


参考链接:


https://threadreaderapp.com/thread/1288402693770231809.html


《英特尔CEO自救:我太难了》


2020-08-17 15:545566

评论 1 条评论

发布
用户头像
你们infoQ是经过原作者同意转载了吗?这不是从台湾的bbs论坛过来的吗?你们这些编辑现在这么随意的?
2020-08-18 03:01
回复
没有更多了
发现更多内容

为什么程序员不能一次性写好,需要不停改bug?

伤感汤姆布利柏

聚道云软件连接器助力生产制作行业实现数字化升级

聚道云软件连接器

生产力工具低代码开发平台

这我可不懂

软件开发 低代码 JNPF

安全利器!龙蜥推出机密计算远程证明服务—OAAS 诚邀广大用户测试

OpenAnolis小助手

开源 安全 龙蜥社区 机密计算 OAAS

当平台工程遇上DevEx:打造卓越的开发者体验

京东科技开发者

Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货

汀丶人工智能

Pika sora 文生视频 文生视频模型

正式发布后的一年,我们都做了什么? | Sermant 2023年度总结

华为云开源

开源 微服务 服务治理 sermant

3款好用的国产软件,装了就舍不得卸载

高端章鱼哥

思维导图 低代码

AI 大模型微调训练营第 0 期 -- 毕业总结

Jabez

多人协同开发场景,如何做到高效发布

阿里巴巴云原生

阿里云 微服务 云原生 云效

旁门左道:借助 HttpClientHandler 拦截请求,体验 Semantic Kernel 插件

不在线第一只蜗牛

Java c++ 开发语言

技术分享 | 神级程序员都在用什么工具?

互联网工科生

IntelliJ IDEA 数据源 JNPF

技术专栏丨Rust 语言简介及其在 Fabarta 技术栈中的应用

Fabarta

已解决xlrd.biffh.XLRDError: Excel xlsx file; not supported异常的正确解决方法,亲测有效!!!

小明Java问道之路

Enhancing WiFi7 Network Efficiency: How IPQ9574 and IPQ9554 Collaborate with QCN9274

wallyslilly

ipq9574

春节后,必读的12篇大模型论文

学术头条

人工智能 大模型 AIGC AI Agent

鸿蒙NEXT来了?企业开发者需要关注些什么

Geek_2305a8

spark为什么比mapreduce快?

京东科技开发者

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

快乐非自愿限量之名

人工智能 视频制作 AI视频

人工智能的起源和应用场景

小齐写代码

如何做代币分析:以 BNB 币为例

Footprint Analytics

Token 代币 bnb

关于代码性能优化的总结

快乐非自愿限量之名

深度学习 代码 代码优化

展开说说鸿蒙开源与技术细节

Geek_2305a8

多人协同开发场景,如何做到高效发布

阿里云云效

阿里云 云原生 云效

面试官:如何实现多级缓存?

王磊

Java 面试

如何提高企业独立站的转化率

九凌网络

分布式场景怎么Join | 京东云技术团队

京东科技开发者

APISIX 可观测性最佳实践

观测云

APISIX

一文总结 C++ 常量表达式、constexpr 和 const

不在线第一只蜗牛

c++ 开发语言 tldr

《人工智能在测试开发中的应用》

测吧(北京)科技有限公司

测试

英特尔前雇员讲述:50年老厂是如何走上“挤牙膏”之路的?_大数据_chiakokhua_InfoQ精选文章