写点什么

可信编程 – Rust 语言开发的实践和愿景

  • 2021-02-11
  • 本文字数:2426 字

    阅读完需:约 8 分钟

可信编程 – Rust语言开发的实践和愿景

作者:

Yijun Yu

可信编程首席专家

华为可信软件工程与开源实验室

华为爱尔兰研究所

Amanieu d’Antras

Rust 高级专家

华为可信软件工程与开源实验室

华为爱尔兰研究所


Rust 带来的创新

StackOverflow 的调查表明, 自 2015 年以来,Rust 一直是开发者最爱的编程语言。

学术界对于 Rust 也越来越重视,在编程语言和软件工程顶会上发表的关于 Rust 的论文正逐年增加。

不仅如此,《自然》杂志 2020 年尾的文章《Why Scientists are Turning to Rust》中也强调:科学家极为推崇 Rust。

Rust 在华为的初步推进

华为的目标是引领通信系统软件向安全可信演进,其中 Rust 语言正在发挥很大的作用。例如,我们希望通过部分 C/C++代码向 Rust 的迁移,在保证高性能的同时,拥有更高的安全性。在此过程中, 我们为开发者提供一套自动化工具支持:基于开源的 C2Rust 转译工具, 首先从 C 代码生成 Rust 代码, 然后通过源到源变换工具自动重构。


华为内部还基于 actor 的并发编程模式开发了 Rust 库,例如 async, await,方便程序员充分利用 Rust 的语言特性。


华为的通信系统软件开发以 C/C++ 代码为主, 在需要的时候,这些 Rust 库将使 C/C++ 到 Rust 的迁移更加顺畅。作为业界领先公司和 Rust 基金会创始成员,华为致力于推进 Rust 在通信软件行业的发展,并将持续为 Rust 社区做出贡献。

华为对 Rust 社区的贡献

我们为 Rust 社区贡献了许多重要的功能特性。例如,我们最近为 Rust 编译器提交了一系列代码,使得 Rust 编译目标可以支持 ARM AArch64 32 位大端变体 ILP32 芯片组, 以便用于我们的通信产品中。这些改进使得我们和友商可以在这些常用网络硬件架构上执行 Rust 原生程序。这些代码已经通过我们的 Rust 专家 Amanieu d’Antras 提交给了 LLVM 编译器, libc 库, 以及 Rust 编译器等开源项目。


这些对 Rust 编译器的更改引入了新的端到端交叉编译目标,基于此针对定制硬件构建 Rust 产品变得更容易, 只需要简单的命令,比如:

cargo build --target aarch64_be-unknown-linux-gnucargo build --target aarch64-unknown-linux-gnu_ilp32cargo build --target aarch64_be-unknown-linux-gnu_ilp32
复制代码

华为在中国 Rust 社区贡献方面也走在前列。去年 12 月 26 日至 27 日,在深圳战略赞助了 Rust China Conf 2020 ,并推行多项社区活动,包括为中国的开发者提供 Rust 教程和 Rust 编码规范。

配置华为的端到端 Rust 工具链

(C、C++、Rust 代码在 Fuchsia 项目的占比)

Rust 社区中有几种端到端的工具,我们已经开始从开发人员和工具的交互中获取信息。

这里有一些例子

tokei

由于可信编程项目通常涉及多个编程语言,我们采用了 tokei 作为多语言代码复杂性度量工具,可识别多达 200 种编程语言。例如,开源的 Fuchsia 项目涉及了多种编程语言,下面的统计信息显示有多少行不同语言的代码:

另外,为了在大型项目中满足处理多种编程语言的场景需求,我们为 tokei 提供新特性,使其支持识别编程语言的批处理。

cargo-geiger

为了提高安全性,我们经常想知道有多少代码已经被 Rust 编译器检查过。幸运的是,通过统计带有“unsafe”关键字的 fn、expr,struct、impl、trait 及其在各相关库, cargo-geiger 几乎做到了这点。

不过,统计数字中并没有反映安全性,所以没办法展现 Rust 项目总体上取得了多少进展的比例。因此,我们提交了代码,在改进的 cargo-geiger 计数器报告中提供 Rust 项目的安全检查比率。这些代码被采纳后,我们的研发团队现在每天都在使用这个工具,这份典型的报告能够很容易看出哪些代码库还没被 Rust 编译器完全检查到。


通过深度代码学习研究 Rust

随着 Rust 开源社区代码的发展和革新,初学者需要学习掌握 Rust 最佳的实践,其包括但不限于 Rust 语言本身。把统计机器学习的方法应用到源代码数据上,也称为 Big Code,正被全世界的软件工程研究团队关注:类似于图像处理和自然语言处理中的机器学习问题,这些问题都需要通过深度神经网络 (deep neural networks DNN) 提取大量的特征,Big Code 可能同样需要去训练 DNN 来反映程序的统计特性,所以也称为“深度代码学习”。


在这方面,华为与英国开放大学和新加坡管理大学进行技术合作,在现在最先进的“跨语言”深度代码学习基础上进行优化研究。


例如,最初的深度代码学习方法应用于北京大学编程课程收集到的 104 个算法类的 5.2 万个 C/C++ 程序。对此数据集,树基卷积神经网络 (TBCNN) 算法分类准确率达到 94%(AAAI’16)。最近的 SOTA 在语句级使用抽象语法树 (ICSE ’19) 准确率达到 98%。近期我们同英国开放大学和新加坡管理大学在树基胶囊网络的合作研究进展推动了 SOTA 进一步提高,达到 98.4% 的准确率 (AAAI’21)。


早些时候我们已经使用跨语言的数据集证明,对一种编程语言的深度代码学习模型也适用于另一种编程语言。例如,从 GitHub 爬取的数据集 Rosetta Code,从 Java 到 C 语言,可以获得 86% 的算法分类准确度 (SANER’19),在 Java 到 C# 的跨语言 API 映射问题中也能发挥重要作用 (ESEC/FSE’19)。这些统计语言模型在软件工程中可以应用于很多方面,比如代码分类、代码搜索、代码推荐、代码摘要、方法名称预测、代码克隆检测等等 (ICSE’21)。


为了进一步研究分析 Rust 项目,我们向 Rust 解析器项目 tree-sitter 和 XML 序列化 quick-xml 等项目提交了代码,通过 Rust 程序的抽象语法树来训练深度代码学习模型。研究的初步结果显示,算法检测任务在 Rust 代码上的精度高达 85.5%。随着工具链的改进,这个比例还有望进一步提升。


在 Visual Studio Code IDE 上,我们开发扩展插件,使得程序员可以得到合适的算法推荐和可解释性的帮助。

结      论

综上所述,华为可信软件工程与开源实验室正在开展的 Rust 工作为程序员提供智能化端到端 IDE 工具链,以期最大限度地提高代码的安全性和性能。走向可信编程远景的旅程刚刚开始,我们希望与 Rust 社区和 Rust 基金会深度合作,引领电信软件产业的可信革新。


英文原文链接

https://trusted-programming.github.io/2021-02-07/index.html

2021-02-11 10:004301

评论

发布
暂无评论
发现更多内容

小六六学Netty系列之Java NIO(一)

自然

网络 9月月更 neety

挑战30天学完Python:Day1火力全开-初识Python(含系列大纲)

MegaQi

9月月更 挑战30天学完Python

PANAMA: 共享机器学习集群的网内聚合框架

俞凡

大数据 架构 网络

C++后台开发学习路线(已多人拿下腾讯后台开发)

C++后台开发

后台开发 后端开发 C++后台开发 C++开发 腾讯后台开发

首次发布!Java面试八股文让569人成功进入大厂,堪称2022最强面试八股文核心知识版!

退休的汤姆

Java 程序员 面经 秋招 Java八股文

秋招国内大厂最牛的Java面试八股文合集(全彩版),不接受反驳

退休的汤姆

Java 程序员 面经 Java工程师 秋招

数据存储与物联网

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

【大话 C 语言】春眠不觉晓,函数知多少?

Albert Edison

递归 C语言 函数 开发语言 9月月更

如果你是Java程序员,你会选择Cloud Studio进行云端开发,放弃IDEA吗?

wljslmz

Java Cloud Studio 9月月更

常见的网络安全攻击及防御技术概述

阿泽🧸

网络安全 9月月更

小六六学Netty系列之Java BIO

自然

网络 9月月更 neety

设计模式的艺术 第十二章装饰设计模式练习(开发一个数据加密模块,可以对字符串进行加密。最简单的加密算法通过对字母移位来实现,同时提供了稍复杂的逆向输出加密和更高级的求模加密。用户先用最简单的算法加密,如果觉得不够,可以使用其他算法进行二次加密和三次加密)

代廉洁

设计模式的艺术

数据治理的内核:元数据管理

小鲸数据

数据治理 数字化 元数据 元数据管理 元数据管理平台

DPDK技术学习路线总结,虚拟化专家之路

C++后台开发

后台开发 DPDK VPP OvS DPDK开发

C++学习------cerrno头文件的作用与源码学习

桑榆

c++ 9月月更

软件复杂性的来源与应对

源字节1号

软件开发 前端开发 后端开发 小程序开发

在世界人工智能大会,看京东AI向产业奔涌

脑极体

费时3个月啃烂了这份Redis技术笔记,我成功上岸进了字节

收到请回复

redis 架构 语言 & 开发 Java core redis 底层原理

分布式技术难学?谷歌大神首发纯手撸ZK+Dubbo笔记,网友看完直呼NB

收到请回复

Java zookeeper 架构 分布式 语言 & 开发

《游戏机图鉴》:发展、继承、崩溃、复兴,游戏机的前世今生

图灵社区

科普 游戏机

设计模式的艺术 第十三章外观设计模式练习(为新开发的智能手机控制与管理软件提供一键备份功能。通过该功能可以将原本存储在手机中的通讯录、短信、照片、歌曲等资料一次性地全部复制到移动存储介质(如MMC卡或SD卡)中。实现过程中需要与多个已有的类进行交互)

代廉洁

设计模式的艺术

重学网络系列之(我的名字叫IP)

自然

网络 9月月更

如何成为资深的测试专家

穿过生命散发芬芳

测试 9月月更

设计模式的艺术 第十一章组合设计模式练习(开发一个界面控件库。界面控件分为两大类:一类是单元控件,例如按钮、文本框等;另一类是容器控件,例如窗体、中间面板等。试用组合模式设计该界面控件库)

代廉洁

设计模式的艺术

腾讯T4整合Spring+Spring MVC+MyBatis+Redis实现

退休的汤姆

Java 程序员 面经 Java工程师 秋招

日拱算法:什么是“情感丰富的文字”?

掘金安东尼

9月月更

深入思考Schema管理的几个基本问题

HackMSF

完美!华为大佬手码20w字Redis全栈小册,原来Redis性能可压榨到极致

Java全栈架构师

数据库 redis 程序员 面试 后端

2022-09-03:n块石头放置在二维平面中的一些整数坐标点上 每个坐标点上最多只能有一块石头 如果一块石头的 同行或者同列 上有其他石头存在,那么就可以移除这块石头。 给你一个长度为 n 的数组

福大大架构师每日一题

算法 rust 福大大

可信编程 – Rust语言开发的实践和愿景_架构_施尧_InfoQ精选文章