“我应该使用 GitHub 吗?”
我经常被有抱负的数据科学家问到这个问题,我的回答是:“当然要用!”
对于数据科学家来说,GitHub 是他们寻求脱颖而出机会的一个宝贵的平台。它就像是一个在线简历,向招聘人员和其他专业人士展示你的代码。事实上,Google、Facebook、IBM、NVIDIA 等顶级科技巨头都在 GitHub 上托管开源项目。
如果你是数据科学新手,或者甚至是老练的专业人士,你应该拥有一个 GitHub 帐户。为了帮你省下用于寻找有用的项目的时间,我将为你们带来这个月的最佳项目。
本月收集的开源项目来自各种使用场景——计算机视觉(对象检测和分割)、Google BERT 框架的 PyTorch 实现、提取最新的研究论文及摘要,等等。
为什么我们会在本系列中包含 Reddit 讨论?我个人发现,Reddit 是一个令人难以置信的平台,原因有很多——内容丰富、顶级机器学习/深度学习专家花时间提出他们的想法、各种各样的主题、开源资源,等等。
GitHub 开源项目
PyTorch 1.0 中更快的 R-CNN 和 Mask R-CNN(项目地址)
如今,计算机视觉已经变得非常流行,很多企业迫不及待地在它们的产品中实现和集成最新的算法。
当然,对象检测很容易成为这个领域中最受欢迎的技能。这是来自 Facebook 的一个非常酷的项目,旨在通过 PyTorch 1.0 框架为创建分割和检测模型提供构建块。Facebook 声称,它比 Detectron 框架快两倍,并提供了预训练模型,还有足够的资源和细节供入门参考!
腾讯 ML Images:最大的开源多标签图像数据库(项目地址)
这个项目是所有深度学习爱好者的金矿。来看看有关这个数据集的一些数字:17,609,752 次训练和 88,739 次图像 URL 验证,最多有 11,166 个类别,真的难以置信!
这个项目还包括一个预训练的 Resnet-101 模型,迄今为止在 ImageNet 上实现了 80.73%的准确率。这个项目提供了大量有关入门的详细信息和代码。这个项目向社区提供高质量数据迈出了重要的一步。
Google BERT 的 PyTorch 实现(项目地址)
BERT 是一种语言表示模型,Bidirectional Encoder Representations from Transformers 的缩写。它念起来有点拗口,但它在机器学习领域已经掀起了阵阵波澜。
BERT 在 11 种自然语言处理(NLP)任务中设置了各种新的基准。在各种 NLP 任务中使用的预训练语言模型对某些人来说可能有点奇怪,但 BERT 框架已经将其变为现实。在 SQuAD 问答测试中,它甚至超越了人类的表现。
这个项目提供了用于在你自己的计算机上实现 BERT 的 PyTorch 代码。正如 Google Brain 研究科学家 Thang Luong 所说的那样,这可能是 NLP 新时代的开始。
如果你对论文感兴趣,也可以在这里(https://arxiv.org/abs/1810.04805)找到。
提取最新的 Arxiv 研究论文及其摘要(项目地址)
我们如何才能站在最新的机器学习研究之巅?我们似乎几乎每周都会看到突破性进展,要跟上它们的步伐简直是一项令人生畏的挑战。大多数顶级研究人员在 arxiv.org 上发表他们的论文,那么有什么方法可以找出最新的论文吗?
这个项目使用 Python(v3.x)抓取 arxiv 论文返回最新的结果。这是一个非常有用的工具,让我们接触到最新的论文,可以选择我们想要阅读的论文。如项目所述,你可以运行以下命令来搜索关键字:
如果没有指定结果数,默认情况下这个脚本将返回五个结果。
DeepMimic(项目地址)
我总是试图在这些清单中加入至少一个强化学习库,主要是因为我觉得每个人都应该了解这个领域的最新进展。本月的的作品是基于深度强化学习的动作模拟。
这个项目是 SIGGAPH 2018“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”论文的一个实现。项目中写道,“这个框架使用强化学习训练模拟人类各种各样的动作技巧“。项目中提供了有关如何自行实现框架的视频和代码。
特别推荐:Google AI 的 AdaNet(项目地址)
这个非常有用的项目不能被忽略。AdaNet 是一个轻量级且可扩展的基于 TensorFlow 的框架,用于自动学习高质量模型。它的最好的部分是你不需要过多介入,框架本身很智能、灵活,足以构建更好的模型。
你可以在这里获得有关 AdaNet 更多的信息。
Reddit 讨论
未来 5 年我们在机器学习方面可以期待什么样的发展?(讨论链接)
autoML 会占据主导地位吗?硬件方面会有怎样的发展?最终会出台有关道德规范的官方规则和政策吗?机器学习是否会融入社会结构?强化学习最终会在行业中找到一席之地吗?
这些只是这个讨论中提出的众多想法的一部分。每个人对他们期望的东西和他们想要看到的东西有自己的预测,这个讨论将两者结合在了一起。这个讨论分为技术和非技术两个主题,你可以选择自己喜欢阅读的内容。
对于让非 ML 人士来管理 ML 研究人员这个问题有何建议?(讨论链接)
这是个有趣的话题。我们之前已经看到过这种趋势——非 ML 领域的人被指派领导一支 ML 专家团队,这通常会让双方感到不适。由于各种原因,事情通常会陷入僵局。
我恳请所有项目经理、负责人、CxO 等花点时间看看这个讨论主题。有一些非常有用的想法,你可以尽快在自己的项目中实现它们。让所有技术人员和非技术人员达成共识是整个项目成功的关键,领导者需要在这方面做出良好的榜样。
机器学习项目的主题思想(讨论链接)
正在寻找一个可以试验的新项目?或者需要为你的论点寻找想法?看看这个讨论就对了。这些是研究生们正在努力磨练和调整他们机器学习技能的一系列想法。其中一些比较突出的是:
预测行人的轨迹;
通过声学估算天气现象(使用信号处理和机器学习);
利用深度学习改进助听器语音处理流程。
这就是 Reddit 的有用之处——你可以在讨论中提出你的想法,你会收到社区关于如何应对挑战的反馈。
为什么机器学习论文中会出现如此令人畏惧的数学?(讨论链接)
这是一个完全技术性的讨论,一个完全主观的问题,答案取决于读者的经验水平以及研究人员对自己想法的表达。我喜欢这个讨论,因为其中有非常具体的相关研究论文的例子,所以你可以探索它们,并形成自己的观点。
这是一个众所周知(并且被接受)的事实,相当多的论文都将数学和研究结果拼凑在一起——并不是每个人都有耐心、意愿或者以清晰的方式展示他们的研究的能力。如果有可能,请尽量改进你的表达技巧。
炒作机器学习的弊端(讨论链接)
对于成熟的专业人士来说,当他们所在的领域开始受到新手的关注时,他们会作何感想?这是一个有趣的问题,可能会跨越领域,但这个讨论侧重于机器学习。
这本身并不是一种技术性讨论,但顶级数据科学家和应用机器学习专业人士对最近在该领域出现的兴趣热潮的看法应该会很有趣。这个讨论有 120 多条评论,富含思想和建议。当关于如何处理非技术领导者和团队成员的话题出现时,事情变得特别有趣。
后记
今年真的看到了一些让人眼前一亮的研究项目开源。无论微软官方收购 GitHub 后发生了什么,它仍然是程序员、开发人员和数据科学家协作的主要平台。我恳请所有阅读这篇文章的人更经常使用 GitHub,即使只是为了浏览最新的项目。
英文原文:
评论