立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

年薪 60 万的数据分析师工作保不住了?!阿里达摩院研究发现,改用 GPT-4 成本只需几千元

  • 2023-06-02
    北京
  • 本文字数:3052 字

    阅读完需:约 10 分钟

年薪60万的数据分析师工作保不住了?!阿里达摩院研究发现,改用GPT-4成本只需几千元

GPT-4 真的可以取代数据分析师吗?

 

今年 3 月 14 日,OpenAI 发布了新“核弹”——GPT-4。OpenAI 联合创始人 Sam Altman 表示,GPT-4 是“迄今为止功能最强大的语言模型”。与上一代相比,GPT-4 更强大更可靠,且更有创造性。

 

GPT-4 的发布让更多的人意识到,在聊天之外,人工智能的能力已不断扩展,并引发了部分人群对职业危机的担忧。有开发者担心,在未来的几十年内,AI 会循序渐进地取代一些开发岗位。

 

不过,GPT-4 的“野心”似乎不止于此,“取代程序员”浪潮未过,新一轮“取代潮”已经掀起。这一次,GPT-4 瞄准了年薪 60 万的数据分析师。

 

近日,阿里达摩院与新加坡南洋理工大学发布了一个关于用 GPT-4 取代数据分析师的成本核算的研究论文。论文指出,随着 LLM 的兴起和流行,不仅在 NLP 社区,其他诸多领域的人们都在考虑、或者担心自己的岗位可能被 AI 所取代。其中数据分析师成为 AI 时代下“首当其冲”的取代对象。

 

论文认为,数据分析师的主要工作内容就是从业务数据中识别出有意义的模式和趋势,并为利益相关者提供有价值的见解、协助制定战略决策。为了实现这个目标,数据分析师必须具备多种技能,包括 SQL 查询编写、数据清洗和转换、可视化生成和数据分析。由于工作流程相对较为固化确定,因此公众对于 AI 是否将取代数据分析师展开了激烈讨论。

 

论文指出:“除了所有数据分析师和 GPT-4 之间的可比绩效外,我们可以注意到 GPT-4 所花费的时间要比人类数据分析师短得多。我们假设每个月有大约 21 个工作日,每天工作 8 小时左右,并根据每个级别的数据分析师所花费的平均时间计算出每个实例在美元方面的成本。GPT-4 的成本约为初级数据分析师成本的 0.71%和高级数据分析师成本的 0.45%。”

 

在脉脉上,不少数据分析师岗位给到了月薪 40k 以上,以高级数据分析师年薪 60 万元为例,GPT-4 的成本大概在 2700 元左右。


图源:脉脉

论文地址:

https://arxiv.org/abs/2305.15038

作为数据分析师,GPT-4 大概是什么水平?

 

在论文中,研究人员试图分析:作为数据分析师,GPT-4 大概是个什么水平?

 

首先,研究人员将数据分析师的主要工作内容分成三个步骤:


  • 数据收集:主要包括理解业务需求,并决定哪些数据源与需求有所关联。确定了相关数据后,分析师就可以通过 SQL 查询或其他工具提取所需的数据。

  • 数据可视化:创建视觉辅助工具,例如图形和图表,借此高效传达见解。

  • 数据分析:在数据分析阶段,分析师可能需要确定不同数据点之间的关联性,识别异常和异常值,并跟踪随时间而变化的趋势。在此过程中得出的见解,可以通过书面报告或演示文稿的形式传达给利益相关者。

 

根据数据分析师的主要工作范围,研究人员专门设计了一个 GPT-4 数据分析师模拟流程。如下图所示,其中,业务问题和数据库等强制输入信息显示在右上角的蓝色框内,参考的外部知识源作为可选输入则位于左上角的红色虚线框内。下方绿色框中的是提取数据(data.txt)、数据可视化(figure.pdf)和分析等输出结果。

图1


具体而言,给定一个与业务相关的问题(q)和一个或多个相关数据库表(d)及其模式(s)。目标是提取所需数据(D),生成可视化图表(G),并提供分析和见解(A)。

 

根据给定问题,分析师需要从数据库中挑选出生成图表所需要的数据,并对这些数据做有意义的组织排列。例如,“请展示散点图中身高和体重之间的相关性”。可以看到,问题中还包含了图表类型信息,因此应当根据数据的性质和所提问题选择合适的图表类型,并使用合适的软件或编程语言生成图表。最后,需要分析数据以确定有助于回答问题的趋势、模式和见解。

 

研究人员希望使用 GPT-4 实现整个数据分析过程的自动化,并按图 1 所示的步骤进行。这主要涉及三个步骤:代码生成(蓝色箭头所示)、代码执行(橙色箭头所示、分析生成(绿色箭头所示)。该框架的算法如下图所示:


图2


为了判断 GPT-4 作为数据分析师的水平如何,研究人员选取了 200 个样本,并对 GPT-4 的输出进行了系统且专业的人工评估,整个评估共分为两组。研究人员主要通过以下指标,对 LLM 的数据分析能力做定量评估:性能、时间和成本。具体来说,研究人员让 GPT-4 作为数据分析师解决几个端到端数据分析问题。由于此类数据分析问题没有可供参考的现成数据集,所以研究人员选择了相关度最高的数据集 NvBench,并在其中添加了数据分析部分。研究人员还设计了几项自动和人工评估指标,用以综合评估提取的数据、绘制的图表和生成的数据分析结论的实际质量。


图3


结果发现,在正确选取图表类型方面,两个评估组几乎都拿下了满分。这说明对于“绘制条形图”、“显示饼状图”等简单明了的指令,GPT-4 能够轻松理解其含义,并结合关于图表类型的背景知识正确绘制出适合的图表。在美学得分方面,GPT-4 的平均得分为 2.73 分(满分 3 分),这表明生成的大部分图形对受众来说清晰、不存在格式错误。但在所绘制图表的信息正确性方面,GPT-4 的得分无法令人满意。研究人员手动检查了这些图表,从中发现了一些小错误,但大部分图表仍给出了基本正确的数字。研究人员的评估标准非常严格,只要任何数据或者 x 轴/y 轴标签有误就必须扣分。从这个角度看,GPT-4 的工作能力仍有进一步改进的空间。

 

在对分析能力的评估方面,GPT-4 的对齐度和流畅度均获得满分。这再次证明 GPT-4 特别善于生成顺畅且语法正确的句子。不过,分析的平均正确性分数远高于数字的信息正确性分数,也就是说,GPT-4 可能会生成错误数字,但分析结论却是正确的。图表当中只有少数会产生重要影响的数据错误点。而在复杂度得分上,GPT-4 的 2.16 分(满分 3 分)也合理且令人满意。

人类数据分析师 VS GPT-4,谁更胜一筹?

 

同样的任务,专业的数据分析师会做得比 GPT-4 更好吗?

 

为了对比 GPT-4 与人类数据分析师的表现,研究人员聘请了几位不同背景的专业数据分析师重复完成任务,并与 GPT-4 做了全面比较。结果发现,总体来看,GPT-4 的表现与人类数据分析师基本相当,但双方在不同指标上各有优势侧重。


图4


图 4 第一部分表示一位在金融行业有 6 年以上工作经验的高级数据分析师(Senior Data Analyst 1)在 10 个样本上的表现。从表中可以看到,GPT-4 的性能在大多数指标上都与这位专业分析师相当。虽然 GPT-4 的正确性得分比人类分析师低,但复杂度得分和对齐度得分更高。

 

第二部分为 GPT-4 同另一位在互联网领域拥有 5 年以上经验的高级数据分析师(Senior Data Analyst 2)在 8 个样本上的性能比较。由于样本量相对较小,结果显示人类分析师与 AI 之间存在较大差异。人类分析师在信息正确性、图形美观性、见解正确性和复杂度等方面均超过了 GPT-4,表明大语言模型仍有改进的空间。

 

第三部分比较了 GPT-4 同一位在咨询公司工作不足 2 年的初级数据分析师间在 9 个随机样本上的性能。GPT-4 不仅在数字和分析正确性上表现更好,而且也比人类分析师更倾向于生成较为复杂的分析结论。

 

此外,研究人员还对比了 GPT-4 与人类分析师所需的成本,结果发现 GPT-4 花费的时间比人类分析师短得多。


图5

 

图 5 为不同受试方之间的成本比较。研究人员从 level.fyi 提取了新加坡数据分析师的年薪中位数,从 Glassdoor 查到了新加坡数据分析师的平均年薪。假定每个月约有 21 个工作日,每天工作 8 个小时左右,并按不同级别的数据分析师平均花费的时间来计算各个实例的具体成本(以美元计价)。最终结果是:在根据市场价格为各位数据分析师计费时,GPT-4 的成本约是初级数据分析师的 0.71%,是高级数据分析师的 0.45%。

 

GPT-4 这样的大语言模型真能取代人类数据分析师吗?在论文的结尾,研究人员并未给出明确结论。虽然从分析结果来看,GPT-4 的实际表现几乎与人类相当,并且所需的成本更低,但能否全面取代人类数据分析师仍需要进一步研究。

2023-06-02 16:239746

评论 1 条评论

发布
用户头像
AI试用体验,懒人专项:https://monica.im/?c=IRHLTZYV 免费使用:GPT4.0、AI作画、文章摘要、视频摘要、智能搜索等
2023-06-06 17:05 · 北京
回复
没有更多了
发现更多内容

看一遍就理解:动态规划详解,双非渣本Java四年磨一剑

Java 程序员 后端

真香!前阿里P8甩我一份内部SpringCloud笔记手册,竟然在Github上点击破百万

Java 程序员 后端

架构实战营- 模块二

瓜子葫芦侠

「架构实战营」

男默女泪!阿里技术官的Docker+K8S手册(1),java研发工程师面试问题

Java 程序员 后端

直击阿里“远程面试”现场,linux驱动开发入门与实战

Java 程序员 后端

看这篇就够了!RabbitMQ如何防止数据丢失,详细讲解,linux教程课后答案孟庆昌

Java 程序员 后端

确定要面试问我JVM吗?我打算聊一个小时的!(1),linux驱动架构

Java 程序员 后端

看完这篇,别人的开源项目结构应该能看懂了,kafka入门与实践百度云

Java 程序员 后端

硬核!阿里内部这份《Java面试核心知识手册,面经解析

Java 程序员 后端

疫情在家刷了几个月的面试题及算法,我终于拿到了字节跳动offer

Java 程序员 后端

硬核!逛了5年的Github一口气把我收藏的JAVA开源项目分享给你

Java 程序员 后端

看完这篇,面试再也不怕被问 Webpack 热更新,java原理及插件

Java 程序员 后端

真香现场!全网首发Spring5秘籍手册+知识导图,记得把每一次面试当做经验积累

Java 程序员 后端

硬核解析,巧用案例学习jQuery框架三种事件绑定方式,最新阿里+头条+腾讯大厂Java笔试真题

Java 程序员 后端

用时半个月,终于把2020年各大公司的Java面试题精选整理成文档了

Java 程序员 后端

疫情期间宅在家的这段时间,突然收到(余额宝,java架构师技术进阶路线图下载

Java 程序员 后端

真666!阿里资深架构师熬夜纯手写的238页微服务容器化开发实战笔记

Java 程序员 后端

文本随机打乱工具

入门小站

工具

用了这么多年分页PageHelper,你确定你真的会用吗?,mysql应用教程李辉答案

Java 程序员 后端

架构实战营模块2课后作业

断水风春

架构实战营

百度、阿里、美团,java敏捷开发模式面试题

Java 程序员 后端

瞬间霸榜,收藏第一的“kafka学习笔记,java图片转视频

Java 程序员 后端

知乎万赞:Java程序员的悲哀竟然是,java编程思想百度云

Java 程序员 后端

硬核图解!断网了,还能ping通 127,高性能mysql笔记

Java 程序员 后端

男默女泪!阿里技术官的Docker+K8S手册,java开发视频直播

Java 程序员 后端

疫情降至,我只花了7天,经历三个步骤拿到了腾讯offer,springmvc面试题常问2020

Java 程序员 后端

知乎:怎么评价程序员35岁了还在撸代码?,java实用教程第五版电子书答案

Java 程序员 后端

linux中同时移动多种格式文件

入门小站

Linux

硬肝到秃头!Alibaba强推并发编程笔记我跪了,真的学到好多东西

Java 程序员 后端

看完这篇文章,你对Redis持久化的迷惑就全解开了,超全面

Java 程序员 后端

知乎头条。纯干货:深度认识Sharding-JDBC,mybatis连接数据库原理

Java 程序员 后端

年薪60万的数据分析师工作保不住了?!阿里达摩院研究发现,改用GPT-4成本只需几千元_文化 & 方法_核子可乐_InfoQ精选文章