写点什么

10 月份最热门的机器学习开源项目 TOP 5

  • 2018-11-11
  • 本文字数:2867 字

    阅读完需:约 9 分钟

“我应该使用 GitHub 吗?”


我经常被有抱负的数据科学家问到这个问题,我的回答是:“当然要用!”


对于数据科学家来说,GitHub 是他们寻求脱颖而出机会的一个宝贵的平台。它就像是一个在线简历,向招聘人员和其他专业人士展示你的代码。事实上,Google、Facebook、IBM、NVIDIA 等顶级科技巨头都在 GitHub 上托管开源项目。


如果你是数据科学新手,或者甚至是老练的专业人士,你应该拥有一个 GitHub 帐户。为了帮你省下用于寻找有用的项目的时间,我将为你们带来这个月的最佳项目。



本月收集的开源项目来自各种使用场景——计算机视觉(对象检测和分割)、Google BERT 框架的 PyTorch 实现、提取最新的研究论文及摘要,等等。


为什么我们会在本系列中包含 Reddit 讨论?我个人发现,Reddit 是一个令人难以置信的平台,原因有很多——内容丰富、顶级机器学习/深度学习专家花时间提出他们的想法、各种各样的主题、开源资源,等等。

GitHub 开源项目

PyTorch 1.0 中更快的 R-CNN 和 Mask R-CNN(项目地址


如今,计算机视觉已经变得非常流行,很多企业迫不及待地在它们的产品中实现和集成最新的算法。


当然,对象检测很容易成为这个领域中最受欢迎的技能。这是来自 Facebook 的一个非常酷的项目,旨在通过 PyTorch 1.0 框架为创建分割和检测模型提供构建块。Facebook 声称,它比 Detectron 框架快两倍,并提供了预训练模型,还有足够的资源和细节供入门参考!

腾讯 ML Images:最大的开源多标签图像数据库(项目地址


这个项目是所有深度学习爱好者的金矿。来看看有关这个数据集的一些数字:17,609,752 次训练和 88,739 次图像 URL 验证,最多有 11,166 个类别,真的难以置信!


这个项目还包括一个预训练的 Resnet-101 模型,迄今为止在 ImageNet 上实现了 80.73%的准确率。这个项目提供了大量有关入门的详细信息和代码。这个项目向社区提供高质量数据迈出了重要的一步。

Google BERT 的 PyTorch 实现(项目地址


BERT 是一种语言表示模型,Bidirectional Encoder Representations from Transformers 的缩写。它念起来有点拗口,但它在机器学习领域已经掀起了阵阵波澜。


BERT 在 11 种自然语言处理(NLP)任务中设置了各种新的基准。在各种 NLP 任务中使用的预训练语言模型对某些人来说可能有点奇怪,但 BERT 框架已经将其变为现实。在 SQuAD 问答测试中,它甚至超越了人类的表现。


这个项目提供了用于在你自己的计算机上实现 BERT 的 PyTorch 代码。正如 Google Brain 研究科学家 Thang Luong 所说的那样,这可能是 NLP 新时代的开始。


如果你对论文感兴趣,也可以在这里(https://arxiv.org/abs/1810.04805)找到。

提取最新的 Arxiv 研究论文及其摘要(项目地址


我们如何才能站在最新的机器学习研究之巅?我们似乎几乎每周都会看到突破性进展,要跟上它们的步伐简直是一项令人生畏的挑战。大多数顶级研究人员在 arxiv.org 上发表他们的论文,那么有什么方法可以找出最新的论文吗?


这个项目使用 Python(v3.x)抓取 arxiv 论文返回最新的结果。这是一个非常有用的工具,让我们接触到最新的论文,可以选择我们想要阅读的论文。如项目所述,你可以运行以下命令来搜索关键字:


$ python3 sotawhat.py "[keyword]" [number of results]
复制代码


如果没有指定结果数,默认情况下这个脚本将返回五个结果。

DeepMimic(项目地址


我总是试图在这些清单中加入至少一个强化学习库,主要是因为我觉得每个人都应该了解这个领域的最新进展。本月的的作品是基于深度强化学习的动作模拟。


这个项目是 SIGGAPH 2018“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”论文的一个实现。项目中写道,“这个框架使用强化学习训练模拟人类各种各样的动作技巧“。项目中提供了有关如何自行实现框架的视频和代码。

特别推荐:Google AI 的 AdaNet(项目地址


这个非常有用的项目不能被忽略。AdaNet 是一个轻量级且可扩展的基于 TensorFlow 的框架,用于自动学习高质量模型。它的最好的部分是你不需要过多介入,框架本身很智能、灵活,足以构建更好的模型。


你可以在这里获得有关 AdaNet 更多的信息。

Reddit 讨论

未来 5 年我们在机器学习方面可以期待什么样的发展?(讨论链接

autoML 会占据主导地位吗?硬件方面会有怎样的发展?最终会出台有关道德规范的官方规则和政策吗?机器学习是否会融入社会结构?强化学习最终会在行业中找到一席之地吗?


这些只是这个讨论中提出的众多想法的一部分。每个人对他们期望的东西和他们想要看到的东西有自己的预测,这个讨论将两者结合在了一起。这个讨论分为技术和非技术两个主题,你可以选择自己喜欢阅读的内容。

对于让非 ML 人士来管理 ML 研究人员这个问题有何建议?(讨论链接

这是个有趣的话题。我们之前已经看到过这种趋势——非 ML 领域的人被指派领导一支 ML 专家团队,这通常会让双方感到不适。由于各种原因,事情通常会陷入僵局。


我恳请所有项目经理、负责人、CxO 等花点时间看看这个讨论主题。有一些非常有用的想法,你可以尽快在自己的项目中实现它们。让所有技术人员和非技术人员达成共识是整个项目成功的关键,领导者需要在这方面做出良好的榜样。

机器学习项目的主题思想(讨论链接

正在寻找一个可以试验的新项目?或者需要为你的论点寻找想法?看看这个讨论就对了。这些是研究生们正在努力磨练和调整他们机器学习技能的一系列想法。其中一些比较突出的是:


  • 预测行人的轨迹;

  • 通过声学估算天气现象(使用信号处理和机器学习);

  • 利用深度学习改进助听器语音处理流程。


这就是 Reddit 的有用之处——你可以在讨论中提出你的想法,你会收到社区关于如何应对挑战的反馈。

为什么机器学习论文中会出现如此令人畏惧的数学?(讨论链接

这是一个完全技术性的讨论,一个完全主观的问题,答案取决于读者的经验水平以及研究人员对自己想法的表达。我喜欢这个讨论,因为其中有非常具体的相关研究论文的例子,所以你可以探索它们,并形成自己的观点。


这是一个众所周知(并且被接受)的事实,相当多的论文都将数学和研究结果拼凑在一起——并不是每个人都有耐心、意愿或者以清晰的方式展示他们的研究的能力。如果有可能,请尽量改进你的表达技巧。

炒作机器学习的弊端(讨论链接

对于成熟的专业人士来说,当他们所在的领域开始受到新手的关注时,他们会作何感想?这是一个有趣的问题,可能会跨越领域,但这个讨论侧重于机器学习。


这本身并不是一种技术性讨论,但顶级数据科学家和应用机器学习专业人士对最近在该领域出现的兴趣热潮的看法应该会很有趣。这个讨论有 120 多条评论,富含思想和建议。当关于如何处理非技术领导者和团队成员的话题出现时,事情变得特别有趣。

后记

今年真的看到了一些让人眼前一亮的研究项目开源。无论微软官方收购 GitHub 后发生了什么,它仍然是程序员、开发人员和数据科学家协作的主要平台。我恳请所有阅读这篇文章的人更经常使用 GitHub,即使只是为了浏览最新的项目。


英文原文:


https://www.analyticsvidhya.com/blog/2018/11/best-machine-learning-github-repositories-reddit-threads-october-2018/


2018-11-11 09:001863
用户头像

发布了 731 篇内容, 共 451.8 次阅读, 收获喜欢 2002 次。

关注

评论

发布
暂无评论
发现更多内容

大数据处理与智慧营销系统性能优化

鲸品堂

大数据 营销 流程化 企业号2024年8月PK榜

如何做好API安全

德迅云安全杨德俊

如果提议者提议区块的时间晚了,会对见证有何影响?

TechubNews

LED单色显示屏未来发展的3个困难点

Dylan

技术 LED显示屏 全彩LED显示屏 led显示屏厂家 市场

如何挑选符合你需求的任务管理工具

爱吃小舅的鱼

待办事项管理

coconutBattery Plus:苹果mac电脑 电池健康检测工具

Rose

无缝连接!YashanDB DBLink技术应用实践

YashanDB

yashandb 崖山数据库 崖山DB

Autodesk AutoCAD 2021 Mac版中文激活版 含cad2021永久密钥

理理

Downie 4 for Mac(视频下载工具)兼容14系统 v4.7.26中文版

理理

香城档案利用 NocoBase 快速实现智能档案管理

NocoBase

低代码 无代码 档案管理

6 个Spring tx 事务注解:4种隔离&7种事务传播业务案例(必须收藏)

肖哥弹架构

Java spring 注解

KeyShot 2024 Pro中文破解版 含浮动许可证

理理

SourceTree for Mac(Git客户端工具) v4.1.5中文免登陆版

理理

跨平台的键鼠共享工具synergy for mac v1.10.0中文版

理理

探索HarmonyOS位置服务:为用户提供直观的坐标显示

白晓明

HarmonyOS HarmonyOS NEXT 位置服务 地理编码转化 逆地理编码转化

必看!文档版本管理工具大比拼

爱吃小舅的鱼

文档管理

新手指南:轻松选择生产工时管理系统

爱吃小舅的鱼

工时管理

fxfactory视觉特效下载 FxFactory 8 Pro mac破解资源

Rose

FxFactory Pro 8 fxfactory视觉特效

统一多场景自动编译加速

百度Geek说

编译器 百度飞桨

揭示低代码与AI结合的商业价值

天津汇柏科技有限公司

人工智能 低代码

机器人测试自动化智能化交流沙龙 —免费参与,线上线下同步进行

测试人

软件测试

小小的引用计数,大大的性能考究

bin的技术小屋

Netty Java' netty

监理单位项目管理系统选型必看指南

爱吃小舅的鱼

项目管理

扬帆蓝海,智起未来!和鲸科技助力第十三届全国海洋航行器设计与制作大赛智能感知赛道精彩收官!

ModelWhale

苹果电脑cad看图软件推荐:CAD迷你看图 Mac破解版 体积小功能强

理理

天猫商品详情API:商品推荐与关联的获取

技术冰糖葫芦

API Explorer API 接口 API 测试 API 策略 pinduoduo API

身份管理“六边形战士”闪亮登场

芯盾时代

身份安全 iam 统一身份认证 身份和访问管理

Complete Anatomy for Mac 3D医学软件免费版 支持M1/M2

理理

量化交易炒币机器人系统开发策略指南/步骤需求/案例设计/源码版

V\TG【ch3nguang】

天猫商品详情API:深度挖掘商品推荐与关联的新路径

代码忍者

API 接口 API 测试

简历,需要和求职岗位匹配

老张

裁员 职场成长 求职面试

10月份最热门的机器学习开源项目TOP 5_AI&大模型_PRANAV DAR_InfoQ精选文章