近日，Facebook的研究人员表示，已经开发出一种神经网络编译器，可以将代码从一种高级编程语言（如C ++，Java和Python）转换为另一种。

将现有的代码库迁移到主流或更高效的语言，如Java或C++，需要源语言和目标语言方面的专业知识，而且通常成本很高。例如，澳大利亚联邦银行在5年内花费了约7.5亿美元将其平台从COBOL转换为Java。超编译器在理论上可以提供帮助——它们消除了从头开始重写代码的需要——但在实践中却很难建立，因为不同的语言可能有不同的语法，并依赖于不同的平台API、标准库函数和变量类型。

为简化这一问题，Facebook推出了TransCoder，该工具采用无监督学习，可以让代码在C ++，Java和Python之间进行转换。

论文地址：https://arxiv.org/pdf/2006.03511.pdf

TransCoder首先使用跨语言模型预训练进行初始化，该训练将表示相同指令的代码段映射为相同的表示形式，而与编程语言无关（源代码序列的输入流被随机屏蔽，并且TransCoder的任务是根据上下文预测被屏蔽的部分），降噪自动编码的过程会训练系统生成有效序列，即使在输入有噪声的数据的情况下，反向编译使TransCoder可以生成可用于训练的并行数据。

TransCoder的跨语言性质是由跨编程语言存在的通用标记（锚点）的数量引起的，这些标记来自诸如“ for”，“ while”，“ if”和“ try”的通用关键字、数学运算符以及出现在源代码中的英文字符串。反向编译通过将源到目标模型与并行训练的“反向”目标到源模型耦合在一起来提高系统的编译质量。目标到源模型用于将目标序列编译成源语言，产生有噪声的源序列，而源到目标模型则有助于从噪声源重构目标序列，直到两个模型收敛。

Facebook研究人员在公共GitHub语料库上对TransCoder进行了培训，该语料库包含超过280万个开源存储库，目标是函数级别的编译（在编程中，函数是可重复使用的代码块，用于执行单个相关动作）。在对所有可用的源代码进行预训练后，去噪自动编码和反向翻译组件只在函数上进行训练，在组件之间交替使用大约6000个标记批次。

为了评估TransCoder的性能，研究人员从GeeksforGeeks中提取了852个C ++，Java和Python并行函数，GeeksforGeeks是一个在线平台，可收集编码问题并以多种编程语言提供解决方案。他们使用这些公式开发了一种新的度量标准：计算精度，测试给定相同输入时，假设函数是否生成与参考相同的输出。

Facebook方面表示，虽然TransCoder表现最佳的版本并没有产生很多与预期完全相同的函数，但它的编译具有很高的计算精度。研究人员将其归因于波束搜索的结合，波束搜索是一种维护一组部分解码的序列的方法，该序列会附加到序列中，然后进行评分，从而使最佳序列冒泡到顶部：

从C ++转换为Java时，74.8％返回了预期的输出。
从C ++转换为Python时，67.2％返回了预期的输出。
从Java转换为C ++时，91.6％返回了预期的输出。
从Python转换为Java时，56.1％返回了预期的输出。
从Python转换为C ++时，57.8％返回了预期的输出。
从Java转换为Python时，68.7％返回了预期的输出。

根据研究人员的说法，TransCoder在实验过程中展示了对每种语言特有的语法、数据结构及其方法的理解，并且在跨编程语言的情况下正确对齐了库，同时适应了较小的修改（例如当输入已重命名）。尽管它并不完美，例如TransCoder在生成过程中未能考虑某些变量类型，但它的性能仍然比一些框架要优秀。

该工具的一位共同作者写道：“ TransCoder可以轻松地推广到任何编程语言，不需要任何专业知识，并且在很大程度上优于商业解决方案。我们的研究结果表明，通过向解码器添加简单的约束以确保生成的函数在语法上是正确的，或者通过使用专用架构，可以轻松解决该模型所犯的许多错误。”

Facebook不是唯一开发代码生成系统的组织。在今年早些时候的Microsoft Build大会上，OpenAI 演示了一个在GitHub存储库上训练的模型，该模型使用英语注释生成整个功能。两年前，莱斯大学的研究人员创建了一个名为Bayou的系统，该系统通过将公开代码背后的“意图”相关联，并自主编写软件程序。

创作场景

Facebook 发布 TransCoder：可将代码分分钟转换为另一种编程语言