写点什么

我在朝鲜教开源

  • 2021-07-13
  • 本文字数:2397 字

    阅读完需:约 8 分钟

我在朝鲜教开源

本文最初发布于 Mike Izbicki 的个人博客,遵循创作共用许可,由 InfoQ 中文站翻译并分享。


2016 年,我去了朝鲜,给一个硕士班讲授如何给开源软件做贡献。下面是我在讲课时的一张照片:



作为这门课的一部分,学生们需要向自己选择的项目提交补丁。在本文中,我将分享其中两个补丁如何进入流行的机器学习库mlpackvowpal wabbit

mlpack 补丁


为了撰写硕士论文,一名学生研究了“基于视觉的车辆检测系统”。在这个问题中,我们得到了一个安装在路边的摄像机的实时画面,我们的目标是计算经过的汽车和卡车的数量。这是一个相当标准的机器视觉问题,世界各地的学生都经常实现,其输出结果类似下面这样:



(很遗憾,上图并非来自该生的项目,而是来自这里。)


显然,是朝鲜的交通部门指示该学生研究这个问题,因为平壤的来往车辆正在迅速增长。20 世纪 90 年代,到过平壤的游客经常会说路上没有汽车,但现如今,这个城市的交通已经变得很繁忙。我想,著名的平壤交通女孩可能需要一些自动化工具的帮助来保持交通畅通。


朝鲜的研究生可以不受限制的上网,为了实现车辆检测系统,学生们下载了 mlpack 机器学习库。他们选择使用 mlpack 是因为它是用 C++编写的,而这是他们在大学本科课程中学习的主要语言。但是,他们遇到了一个非常严重的问题:他们的电脑很旧,没有足够的内存来编译这个库!


在和学生调式了一个多小时后,我们将问题范围缩小到 mlpack 对 C++模板的使用。为了实现泛型编程而又不增加开销,mlpack 库在其代码中广泛使用了模板。模板的使用为 mlpack 赢得了“模型运行快,内存开销小”的声誉,这可谓实至名归。但它也有缺点,编译慢而且很耗内存。当时,该库在编译时最高会消耗大约 2GB 的内存,而这名学生的笔记本电脑只有 1GB 内存。


最终,这名学生通过大幅优化编译过程完成了对 mlpack 的编译。整个项目的原始代码中包含了数百个不必要的#include语句,而修复方式很简单,就是移除这些无用代码。你可以在 github 上查看具体的提交。成千上万的使用 mlpack 的个人和企业都从这名朝鲜学生的出色工作中获益了。

vowpal wabbit 补丁


我班上的许多硕士生没有选择论文题目,所以我鼓励一个学生研究推特情感分析。在这个问题中,对于下面这条推文:



我们要将其归类为针对某一主题的正面看法或负面看法。例如,上面的推文对 2018 年美国领导人和朝鲜领导人的新加坡峰表达了负面看法。像这样分析数以千计(或数以百万计/数以亿计)的推文,我们就可以判断不同群体对某个特定话题的感受。同样,这是一项世界各地的学生都在实现的常规任务。


这些学生都听说过推特,但没用过。虽然他们的电脑可以不受限制直接上网,但他们不能创建社交媒体账号。在我看来,这是因为美国控制着大部分互联网基础设施(包括推特这样的网站),而且,通过类似国家安全局的PRISM、军方的Cyber Command这样的项目,美国正在对社交媒体进行监视和操纵。在朝鲜战争后,美国和朝鲜未签署和平条约,因此,朝鲜人仍然非常担心受到美国的攻击。不创建社交媒体账号是这些朝鲜学生所采取的 "防御措施 "之一,以限制潜在的 "美国网络攻击 "的影响。幸运的是,推特是我的研究领域之一,我可以提供大小合适的数据集供他们分析。


对于这个项目,值得注意的是,这是朝鲜学生第一次分析推特数据。很快,分析推特数据就具有了地缘政治的意义:项目启动后不到一年,唐纳德·特朗普当选为美国总统,而推特是其政府向世界宣布外交政策的主要工具之一。幸运的是,在特朗普赋予推特这种伪官方地位时,至少已经有少数朝鲜人具备了分析推特数据的经验。他们可以利用这一经验,更好地理解特朗普的推文和数百万美国人的回复。现在,朝鲜政府认识到了利用社交媒体了解美国政策的重要性,并在最近成立了一个新的外交部门,专门通过社交媒体和其他公共信息源分析美国的意图。这对两国来说都是好消息!美国建立在一个透明的体系之上,我们希望每个人——包括朝鲜人——都能了解美国的民主如何运作,以及如何更好地与美国展开谈判,以实现共同的目标。


这种科学交流和外交之间的互动被称为科学外交。在冷战期间,对于美国和苏联限制核武器系统谈判的成功,这种外交模式发挥了重要的作用。我相信,我在朝鲜教授开源软件的工作可以证明,这种科学外交模式也可以成功地应用于美朝谈判。


现在,让我们回到学生的开源贡献。我建议该生使用vowpal wabbit进行分析,对于大型文本数据集分析来说,这是一个很棒的工具。该生成功下载并编译了代码,然后分析了数千条推特的情感。就这些分析来说,代码无需修改就可以正常工作。但对于我们这门关于开源软件的课程来说,该生还需要提交一个补丁。


他从 GitHub 上找了一个打开的问题(能够在训练线性模型时修正截距项和 L2 正则化的相互影响),并提交了增加相应行为的补丁。(两个项目的 PR 都是从我的 GitHub 账号提交的,因为 GitHub 被视为社交媒体,而朝鲜学生是不能创建社交媒体账号的。)后来,这个补丁被发现存在一个 Bug,我们就又提交了一个补丁来修复那个问题。这种反复正是开源软件开发的工作方式。我发现,开源软件让来自世界各地的普通人找到了共同的目标,甚至跨越了看似不可调和的政治分歧,构建了令人惊叹的软件。

未来展望


据我所知,这门课上提交的补丁是朝鲜有史以来所做的第一次开源贡献;遗憾的是,也是最后一次。


次年(2017 年),我又想组织一趟到朝鲜的旅行,我还想带其他几名教授开源软件的老师,但特朗普总统禁止美国人到朝鲜旅行。因此,我和其他老师就无法见到朝鲜学生了,也就没人教(或鼓励)他们为开源做贡献了。


最近,拜登总统宣布了他对朝鲜的 "务实外交 "政策。但关于这项政策的细节还不清楚,而且旅行禁令仍然有效。不过,只要这项政策还有效,我和其他美国老师就不能帮助朝鲜人为开源做贡献。因此,美国人将无法受益于朝鲜人对我们的代码的修复,而有效缓解了美苏联紧张关系的科学外交也无法成为缓解美朝紧张关系的工具。


原文链接:


https://izbicki.me/blog/teaching-open-source-in-north-korea.html

2021-07-13 11:183245
用户头像

发布了 772 篇内容, 共 523.9 次阅读, 收获喜欢 1578 次。

关注

评论 2 条评论

发布
暂无评论
发现更多内容

2023-11-15:用go语言,如果一个正方形矩阵上下对称并且左右对称,对称的意思是互为镜像, 那么称这个正方形矩阵叫做神奇矩阵, 比如 : 1 5 5 1 6 3 3 6 6 3 3 6 1 5

福大大架构师每日一题

福大大架构师每日一题

电视剧剪辑,微课制作神器Camtasia的干货介绍,建议收藏。

淋雨

Camtasia 录屏

助力大模型开发,澳鹏MatrixGo平台工作流再次升级

澳鹏Appen

工作流 数据标注 大模型

GitHub Universe 2023:AI 技术引领软件开发创新浪潮

不在线第一只蜗牛

人工智能 GitHub AI

2023 年是无代码的一年,还要程序员吗?

伤感汤姆布利柏

前端 低代码 开发

软件测试|数据可视化神器——pyecharts教程(五)

霍格沃兹测试开发学社

Last Week in Milvus

Zilliz

Milvus Zilliz 向量数据库

什么行业适合做谷歌SEO?

九凌网络

软件测试|教你用Matplotlib绘制多种饼图

霍格沃兹测试开发学社

『亚马逊云科技产品测评』活动征文|阿里云服务器&亚马逊服务器综合评测

鸽芷咕

云计算 Linux 服务器 科技

外贸企业如何评估谷歌SEO的效果?

九凌网络

软件测试|Python帮手残党写出漂亮签名

霍格沃兹测试开发学社

JNPF低代码,发挥软件定制的威力

互联网工科生

软件开发 低代码 开发平台 JNPF

成本2元开发游戏,最快3分钟完成!全程都是AI智能体“打工”,大模型加持的那种

Openlab_cosmoplat

火焰图:链路追踪分析的可视化利器

观测云

链路追踪 应用性能监控 火焰图

软件测试|一文带你入门Python图片处理神器Pillow

霍格沃兹测试开发学社

用Java使用API接口获取Lazada商品详情

Noah

优测云测试平台 | 有效的单元测试(下)

优测云服务平台

单元测试 单元测试必要性

如何挑选护眼灯?光照均匀度、色温、眩光这3点!

电子信息发烧客

TuGraph Analytics动态插件:快速集成大数据生态系统

TuGraphAnalytics

大数据 插件 数据集成 图计算 Connector

软件测试|Python神器pillow,从此拍照不再需要滤镜

霍格沃兹测试开发学社

软件测试|不会吧,你还不知道用pillow绘制图像?

霍格沃兹测试开发学社

后端开发需要学什么?推荐这份超详细的后端开发学习路线图!

彭宏豪95

Java 编程 后端 IT 后端开发

Vue+SpringBoot前后端分离项目分享

树上有只程序猿

前后端分离 Vue3 spring-boot

软件测试| 教你拿捏Python运算符(三)

霍格沃兹测试开发学社

大模型架构创新已死?

Openlab_cosmoplat

软件测试/测试开发丨人工智能在软件测试领域的革新

测试人

人工智能 软件测试

我在朝鲜教开源_开源_Mike Izbicki_InfoQ精选文章