写点什么

2018 年 Github 最受欢迎机器学习语言 Python 稳坐冠军,numpy、scipy 是最受欢迎软件包

  • 2019-01-25
  • 本文字数:1233 字

    阅读完需:约 4 分钟

2018年Github最受欢迎机器学习语言Python稳坐冠军,numpy、scipy是最受欢迎软件包

在 GitHub 2018 年的 Octoverse 报告中,机器学习和数据科学是 GitHub 上的热门话题。其中,tensorflow / tensorflow 是项目贡献最多的项目之一,pytorch / pytorch 是增长最快的项目之一,而 Python 是 GitHub 上第三大最受欢迎的语言。于是,GitHub 决定更加深入地研究一下,机器学习和数据科学在该平台究竟是怎样的情况。


GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之间的贡献数据。这些贡献可能包括推送代码、发起话题或提取请求、评论问题或提取请求,以及审查拉取请求。对于大多数导入的程序包,GitHub 使用了从依赖关系图中获得的数据,其中包括所有公共存储库和已选择加入依赖关系图的所有私有存储库。

机器学习编程语言:Python 稳坐冠军


GitHub 以使用“机器学习”主题标记的存储库的贡献者为依据,对存储库中最常见的主要编程语言进行了排名。结果显示,Python 是机器学习库中最常用的语言,也是 GitHub 上第三种最常用的语言。然而,并非所有机器学习项目都使用 Python:GitHub 上还有其他一些最常见的机器学习通用语言,如 C ++、JavaScript、Java、C#、Shel l 和 TypeScript 跻身 GitHub 编程语言 Top10,同时是机器学习项目的 Top10 语言。Julia、R 和 Scala 都出现在机器学习项目编程语言的前 10 名,但未上榜 GitHub 整体最受欢迎编程语言 Top10。Julia 和 R 都是数据科学家常用的语言,Scala 在 与 Apache Spark 等大数据系统交互时变得越来越常用。

最受欢迎机器学习和数据科学包:numpy、scipy、pandas 占据前三


我们从依赖图中提取数据,以计算导入流行 Python 包的机器学习或数据科学项目的百分比。上表为项目导入最多程序包 Top10 排名。我们发现:


  • Numpy,一个支持多维数据数学运算的软件包,是导入最多的软件包,近四分之三的机器学习和数据科学项目使用此包。

  • Scipy,一个用于科学计算的软件,pandas,一个用于管理数据集的软件包,以及可视化库matplotlib,都在超过 40% 的机器学习和数据科学项目中使用。

  • Scikit-learn 是一种流行的机器学习包,包含大量机器学习算法的实现,近 40% 的项目使用此包。

  • Tensorflow 是一种用于处理神经网络的软件包,近四分之一的项目使用。


前十名中其他的包均为实用程序包:排名第六的是 Python 2 和 3 兼容性库,python-dateutilpytz 是用于处理日期的包。

最受欢迎的机器学习项目:Tensorflow


2018 年,带有“机器学习”标签、贡献最多的开源项目为 Tensorflow,是迄今为止最受欢迎的机器学习项目,且其贡献者数量是第二大受欢迎项目 scikit-learn 的五倍多。排名第三和第九的 explosion/spaCy/ spaCy 和 RasaHQ / rasa_nlu 是两个专注于自然语言处理问题的项目。另外四个项目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition 和 tesseract-ocr / tesseract 则专注于图像处理。另外,Julia 语言源代码也是 2018 年项目贡献最多的项目之一。


原文链接:


https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/


2019-01-25 12:446746
用户头像

发布了 98 篇内容, 共 65.3 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

技术“开源”对于金融业软件发展的影响

Speedoooo

安全 ios开发 APP开发 Andriod开发 小程序容器

Linux之atime,ctime,mtime的区别

入门小站

Linux

基于磁盘量身定制,十亿规模高效向量检索方案

Zilliz

向量检索 anns 向量计算

使用亚马逊云科技DevOps 工具构建 InnerSource 生态系统

亚马逊云科技 (Amazon Web Services)

开源 InnerSource

助车企升级,旺链科技与南方电网、联想等名企同斩获「创新案例奖」

旺链科技

区块链 产业区块链 供应链金融

QCon-oCPX多目标多场景联合建模在OPPO的实践

安第斯智能云

算法

填问卷抽大奖,中奖绝缘体的跨年福利快来领取!

InfoQ写作社区官方

热门活动

HDFS源码解析:教你用HDFS客户端写数据

华为云开发者联盟

hdfs block appendChunk

带你认识三种kafka消息发送模式

华为云开发者联盟

kafka 时间 异步 消息发送 producer

60 K8S之EFK日志管理系统

穿过生命散发芬芳

k8s 28天写作 12月日更

架构训练营模块三作业

zhongwy

架构实战营 「架构实战营」

How old are you | 尚硅谷大数据之Canal视频教程

编程江湖

大数据 canal

【转】大数据开发之Spark面试八股文

@零度

大数据 spark

通过一个实际例子理解Kubernetes里pod的自动scale - 水平自动伸缩

汪子熙

Kubernetes k8s 28天写作 docker build 12月日更

揭秘字节跳动基于Hudi的实时数据湖平台

字节跳动数据平台

大数据 实时数据湖

Dubbo 框架学习笔记十七

风翱

dubbo 12月日更

固定资产管理平台系统解决方案

低代码小观

企业管理 资产管理 CRM 企业管理系统 CRM系统

前端React 开发中必须知道的5个技巧

@零度

前端开发 React

在线JSON转PHP Array工具

入门小站

工具

面试官:方法重写时需要注意哪些问题?

王磊

实现一键部署与高效集群管理,SphereEx-Boot 正式上线

SphereEx

开源 开源社区 SphereEx ShadingSphere 一键安装

Spring框架基础知识(03)

海拥(haiyong.site)

28天写作 12月日更

千万级日志回放引擎设计稿

FunTester

性能测试 测试框架 FunTester 流量回放 GOREPLAY

人工智能(NLP)|社交网络中的网络表示学习技术研究

索信达控股

人工智能 算法 网络结构

梦想起航

向往

盘点2021

兄弟要盘吗?

为自己带盐

爬虫 dotnet 28天写作 12月日更

2021 优秀开源项目公布,Apache APISIX 位列其中!

API7.ai 技术团队

api 网关 Apache APISIX 优秀开源项目

尚硅谷大数据之Canal视频教程发布!

@零度

大数据

☕【权限设计系列】「认证授权专题」微服务架构的登陆认证问题

码界西柚

微服务架构 12月日更 权限认证机制 授权设计

域名基本信息查询小技巧

喀拉峻

网络安全 安全 信息安全

一次完整的渗透测试&仅供学习研究

H

黑客 网络安全 渗透测试·

2018年Github最受欢迎机器学习语言Python稳坐冠军,numpy、scipy是最受欢迎软件包_编程语言_Thomas_InfoQ精选文章