写点什么

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

  • 2024-08-26
    北京
  • 本文字数:2370 字

    阅读完需:约 8 分钟

大小:1.12M时长:06:30
李沐上海交大演讲:创业好酷,有“当海盗”的乐趣

8 月 23 日,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。这篇文章是对李沐在上海交通大学的演讲内容的总结,涵盖了 AI 技术的现状、未来趋势以及个人成长的深刻洞察。。

关于语言模型

 

李沐首先研究了语言模型的三个核心要素:算力、数据和算法,认为其与机器学习模型类似,本质上都是把数据通过算力和算法压进中间的模型里,使得模型拥有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出想要的东西。

 

但他指出,这次的语言模型和上一次深度学习浪潮的模型有一个比较大的区别:上一次是“我炼一个什么丹就治一个什么病”,这次是“我希望这个东西炼出来会有灵魂在里面”,它能解决很多问题,“这其实是技术一代代往前进。”

 

在他看来,目前语音模型的优点是延迟更低、信息更丰富,并能够通过语言模型对整个输出做很多控制;音乐模型的问题不在于技术,而是商业问题;图片生成是整个 AIGC 领域做得最早的,也是效果最好的;视频模型则比较早期,通用的 video 生成非常贵,训练成本很有可能低于数据处理的成本,所以市面上没有特别好的开源模型出来。而多模态技术的发展趋势在于整合不同类型的模态信息,尤其是文本信息,未来通过文本控制生成某个模块可能成为常态。

 

“总结下来,我觉得语言模型已经达到了较高的水平,大约在 80 到 85 分之间。音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。”李沐说道。

 

在硬件方面,李沐特别强调了带宽的重要性,并预测下一代的带宽将翻倍至 800Gigabits。他还提到了英伟达的 GB200 系统,这是一个尝试通过水冷工艺提高算力密度的创新设计。“一旦用到水冷之后,你的算力就可以更密,就可以放更多机器。”李沐表示。

 

内存方面,他认为内存大小将是模型发展的主要瓶颈,因为当前的内存技术限制了模型的规模。他表示,“受限于内存大小和数据的尺寸,100B 到 500B 会是未来主流的一个大势。你可以做更大,但是它很多时候是用 MoE 做的,它的有效大小(每次激活的大小)可能也就是 500B 的样子。”

 

另外,他预计算力将由于摩尔定律变得越来越便宜。“短期来看,算力翻倍,价格可能会有 1.4 倍的提升。但是长期来看,当竞争变得越来越激烈,摩尔定律会发挥作用,就是说算力翻倍,价格不一定变。所以长期来看算力会变得越来越便宜。”

 

三种 AI 应用

 

李沐将人工智能的应用分为三类:

 

  • 文科白领,这方面做的比较好的包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情,模型能够完成百分之八九十。

  • 工科白领,目前 AI 想取代程序员还早得很。模型现在做的事是直接在其训练数据中检索相关的代码片段,根据上下文,再把变量名改一改。但它不是真的在写代码,人类一个小时还是能够写出很多复杂的代码的,所以模型还是没有取代工科白领一个小时干的事情,更不用说更复杂的任务了。

  • 蓝领阶级,这是最难的,唯一做得好的是自动驾驶。放眼整个世界,蓝领是最主要的成员,因此技术对这个世界做出巨大的变革还需要很多年。未来 10 年、 20 年,大家还是有机会参与进来的。

 

“对于文科白领的工作,AI 已经能完成简单任务,复杂任务需要继续努力。对于工科白领的工作,简单任务还需要努力,复杂任务存在困难。对于蓝领的工作,除了无人驾驶和特定场景(比如工厂,场景变化不大,也能采集大量数据),AI 连简单任务都做不了,完成复杂任务更难。”李沐总结道。

 

此外,他也分享了一些创业后得到的技术细节,比如预训练已经成为工程问题,后训练才是技术问题;垂直模型也需要通用知识;评估很难,但很重要;数据决定模型上限;自建机房不会比租 GPU 便宜太多等。

 

创业与职业发展的感悟

 

李沐分享了他从上海交通大学毕业后的多样化经历,包括在大公司工作、读 PhD 和创业。他强调了在不同环境中工作的目标和动机的重要性,并讨论了每种职业道路的利弊。他建议,无论是选择哪种职业道路,都需要有一个强烈的动机,并能够直面挑战。

 

他提到,做一个“打工人”的好处是,可以在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理;其次是干完被安排的任务后,晚上睡觉不用太担心其他,不会做噩梦;还有就是相对稳定的收入和空余时间。

 

那么做“打工人”的坏处就是停留在打工人或者职业经理人的思维。“公司从最上层把整个复杂的世界抽象成简单的任务,待得越久,就越觉得自己是螺丝钉,当然螺丝钉的好处就是,只要找到一个螺母钉上去就行,不用管这个机器多么复杂,外面世界多么复杂,但你在一个简化的世界里干得越久,就会觉得很腻,学的也越少,这就导致你一直停留在一个打工人或者职业经理人的思维里,而不是站在一个更高更广的层次去思考。”

 

而对于创业,他表示,“创业好酷。好处是有当海盗的乐趣。”他解释道,“天天看市面上有什么东西,天天跟人聊有什么机会,机会来了是不是要 all in 搏一把,海盗太多,你不 all in ,机会就没了,但 all in 了也可能会失败,所以生死就在一瞬间,相当刺激,这种乐趣,你在别处无法体验到,创业是唯一可以合法当海盗的方式。”

 

创业还有一个好处,就是能直面复杂的社会,直接跟社会打交道,没有人帮你做抽象,没有人会帮你把事情想清楚,你得自己把这个社会理解清楚后,快速学习。另外,创业还是一个最好的历经苦难的方法。“创业之后,你会发现,做别的事情都相对简单。”

 

李沐还提出了一个持续提升自我的方法,即从导师或上级的角度审视自己,定期进行自我总结和反思。他强调了直面自己的问题、设定目标和持续努力的重要性。

 

想要查看原演讲的读者可以查看视频链接:

https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click

2024-08-26 17:126612

评论 1 条评论

发布
用户头像
打工人: 学习环境相对简单,有稳定收入和时间,但可能陷入螺丝钉思维
创业: 有“当海盗”的乐趣,直面复杂社会,快速学习,经历苦难
自我提升: 定期自我总结和反思,从导师或上级角度审视自己
2024-09-03 16:03 · 日本
回复
没有更多了

Spring框架(四)SpringMVC基础,2021最新大厂Java面经

Java 程序员 后端

Spring注解驱动,java面试项目中遇到的问题

Java 程序员 后端

Spring(六),终于找到一个看得懂的JVM内存模型了

Java 程序员 后端

Spring常用注解(绝对经典),非科班面试之旅

Java 程序员 后端

Spring核心——Bean的定义与控制,linuxshell脚本教程

Java 程序员 后端

Spring(二),java基础面试题应届生

Java 程序员 后端

Spring(六)(1),mongodb入门书籍

Java 程序员 后端

SQL 中判断条件的先后顺序,会引起索引失效么?,java虚拟机的原理

Java 程序员 后端

SSM整合,kafka教程分享

Java 程序员 后端

Spring的XML解析原理,这一次全搞懂再走!,springmybatis整合原理

Java 程序员 后端

代码检查规则:Python语言案例详解

百度开发者中心

Python 方法论 学习笔记

Spring(二十),Java中级开发笔试题及答案

Java 程序员 后端

Struts 学习笔记1 -Struts Framework 概览,BAT面试&高级进阶

Java 程序员 后端

Spring源码解析(二)AOP,java基础课程百度云

Java 程序员 后端

SQL注入漏洞防护看这一篇就够了!,万字长文

Java 程序员 后端

SQL语句基本语法及函数方法,java编程入门视频教程下载

Java 程序员 后端

质效中台助力实现质量度模型规模化落地

百度Geek说

架构 中台 测试 QA

ThreadLocal内存泄漏分析与解决方案,Java完全自学手册下载

Java 程序员 后端

低代码开发平台是什么意思?低代码开发平台优势!

低代码小观

低代码 开发 开发工具 开发平台 企业开发系统

String Bean 注入方式,2021年Java程序员职业规划

Java 程序员 后端

ThreadLocal基本使用和内存泄漏分析,kafka性能调优

Java 程序员 后端

Threadtear:一款多功能Java代码反混淆工具套件,小米java社招面试

Java 程序员 后端

Spring框架底层原理-IoC,java架构师指南pdf下载

Java 程序员 后端

Spring源码学习~循环依赖(面试必问系列,java最新框架技术

Java 程序员 后端

She Builds Summit | 感受她的科技力量!

亚马逊云科技 (Amazon Web Services)

开源 职场

SymmetricDS 数据库双向同步开源软件入门,我要自学网java基础百度云

Java 程序员 后端

ThreadLocal内存泄漏分析与解决方案(1),linux文件系统原理

Java 程序员 后端

ThreadLocal到底是什么?它解决了什么问题?,kalilinux渗透教程视频

Java 程序员 后端

技术+案例详解无监督学习Autoencoder

华为云开发者联盟

神经网络 算法 图片 无监督学习 Autoencoder

Spring系列:自动注入(autowire,redis笔记

Java 程序员 后端

双11攻略来啦:参与Oracle VS openGauss 在线研讨,与盖国强老师、李国良教授面对面!

墨天轮

oracle opengauss 对话

李沐上海交大演讲:创业好酷,有“当海盗”的乐趣_AI&大模型_褚杏娟_InfoQ精选文章