QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

Rust 治好了我的精神内耗

  • 2022-08-30
    北京
  • 本文字数:5567 字

    阅读完需:约 18 分钟

Rust 治好了我的精神内耗

九年来,我一直用Hakyll作为静态站点的生成工具。再往前追溯,我主要用的是 Jekyll,动态页面大概是用 Perl 加 Mojolicious 和 PHP 加 Kohana 来实现。但我对这些只有模糊的印象,当时还没有 git,所以很多开发痕迹都找不到了。


如今,我终于下定决心,打算转向自己用Rust亲手编写的自定义站点生成器。通过此番重写,我主要是想解决以下三个问题:


第一,越来越慢的速度。在我的低配笔记本电脑上,完整站点的重建大概要 75 秒(不涉及编译,单纯只是站点生成)。我这博客上一共只有 240 篇帖子,所以应该不至于这么慢才对。虽然已经配备了不错的缓存系统,并且只在编辑期间对帖子变更执行更新的 watch 命令,但整个执行速度还是太慢了。


第二,外部依赖项。虽然站点生成器本身是用 Haskell 编写的,但除了众多 Haskell 库之外,其中还包含其他依赖项。我的博客助手脚本是用 Perl 编写的,我使用 sassc 进行 sass 转换,还使用 Python 的 pygments 实现语法高亮,并使用 s3cmd 将生成的站点上传至 S3。管理和更新这么多依赖项真的很烦人,我想摆脱麻烦,专心回归到博客内容上来。


第三,设置问题。跟大量依赖项相关,我的博客网站有时候会宕机,必须得花时间调试和修复。有时候我脑子里刚有点灵感,系统就崩溃了,必须赶紧把网站生成器换掉。


有些朋友可能会问,这么简单的网站还有什么可崩溃的?主要还是更新的锅,往往会以意想不到的方式引发问题。例如:


  • 在更新 GHC 之后,它无法找到 cabal 包。

  • 在运行 Haskell 二进制文件时,系统提示:


[ERROR] Prelude.read: no parse(只出现在台式机上,在我的低配笔记本上倒是运行良好。)


或者是以下 Perl 错误:


Magic.c: loadable library and perl binaries are mismatched (got handshake key 0xcd00080, needed 0xeb00080)(只出现在笔记本上,在台式机上运行良好。)


  • 当 Hakyll 的不同版本间发生 Pandoc 参数变更时,就会破坏 Atom 提要中的代码渲染效果。我知道这些并不是太大的问题,可我只希望轻轻松松写个博文,所以能正常运行才是头号目标。

Haskell 引发了我的精神内耗

其实我还挺喜欢 Haskell 的,特别是它纯函数的部分。另外,我也很喜欢 Hakyll 对站点配置使用的声明性方法。以生成静态(即独立页面)为例:


match "static/*.markdown" $ do    route   staticRoute    compile $ pandocCompiler streams        >>= loadAndApplyTemplate "templates/static.html" siteCtx        >>= loadAndApplyTemplate "templates/site.html" siteCtx        >>= deIndexUrls
复制代码


就算看不懂 $ 和 >>=分别代表什么,仍然能看出我们是在从 static/ 文件夹中查找文件,再把这些文件发送至 pandocCompiler (以转换原始的 markdown 格式)、再发送至模板,之后取消索引 urls(以避免链接以 index.html 结尾)。


多么简单,多么明了!


但我已经很多年没用过 Haskell 了,所以每当需要在网站上添加稍微复杂点的功能,都需要耗费巨大的精力。


例如,我想在帖子中添加下一篇/上一篇的链接,却难以轻松实现。最后,我不得不拿出时间重新学习了 Haskell 和 Hakyll。即使如此,我琢磨出的解决方案也非常慢,是依靠线性搜索来查找下一篇/上一篇帖子。直到现在,我也不知道要怎么以正确的设置方式通过 Hakyll 实现这个功能。


相信各位大牛肯定有好办法,但对我来说这么一项小功能耗费的精神也太多了,着实受不了。

为什么选择 Rust?


  1. 我喜欢用 Rust,偏好基本足以决定这类业余项目的实现方法。

  2. Rust 的性能很强,文本转换应该也正是它所擅长的任务。

  3. Cargo 让人非常省心。在安装了 Rust 之后,就可以执行 cargo build 并等待运行结果。为什么要重新发明轮子?因为我想发挥主观能动性,试试自己能编写出怎样的静态站点生成器。这事应该不是特别难,我能借助它完全控制自己的博客网站,享受远超现成生成器的功能灵活性。当然,我也知道 cobalt 这类工具能配合任意语言对页面进行灵活的类型转换。我只是想在灵活之余,享受一下解决问题的乐趣。


关于实施的细节,因受篇幅所限,我没办法在文章中完整回顾整个构建过程。感兴趣的朋友可以点击此处(https://github.com/treeman/jonashietala)查看项目源代码。

将“硬骨头”各个击破


起初,我很担心没法重现自己熟悉的各种 Hakyll 功能,例如模板引擎、多种语言的语法高亮显示,或者自动重新生成编辑的页面并充当文件服务器的 watch 命令,有了它我才能边写作边在浏览器中查看帖子。


但事实证明,每块“硬骨头”都有对应的理想的工具。下面来看我使用的几个效果拔群的库:


  • 使用 tera 作为模板引擎。它比 Hakyll 更强大,因为它能执行循环等复杂操作:


<div class="post-footer">  <nav class="tag-links">      Posted in {% for tag in tags %}{% if loop.index0 > 0 %}, {% endif %}<a href="{{ tag.href }}">{{ tag.name }}</a>{% endfor %}.  </nav></div>
复制代码


  • 使用 pulldown-cmark 来解析 Markdown。对于 Markdown 的标准语法规范 CommonMark,pulldown-cmark 的表现真的很棒。虽然速度更快,但它的支持范围不像 Pandoc 那么广泛,所以我还得配合其他功能进行支持性扩展。这个问题稍后再谈。

  • 用 syntect 实现语法高亮,能够支持 Sublime Text 语法。

  • 用 yaml-front-matter 解析帖子中的元数据。

  • 用 grass 作为纯 Rust 中的 Sass 编译器。

  • 用 axum 创建负责在本地托管站点的静态文件服务器。

  • 用 hotwatch 监控文件变更,这样就能在文件内容变化时更新页面。

  • 用 scraper 解析生成的 html。我的某些测试和特定转换中需要用到。

  • 用 rust-s3 将生成的站点上传至 S3 存储端。即使有了这些库,我的 Rust 源文件本身还是超过了 6000 行。必须承认,Rust 代码可能有点冗长,再加上我自己的水平也不高,但这个项目的编写工作量还是比预期要多不少。(但好像软件项目都是这样……)

Markdown 转换

虽然在帖子里只使用标准 markdown 能免去这一步,但多年以来我的帖子已经涉及大量 pulldown-cmark 无法支持的功能和扩展,所以只能亲手编码来解决。

预处理

我设置了一个预处理步骤,用以创建包含多个图像的图形。这是个通用的处理步骤,具体形式如下:


::: <type><content>:::
复制代码


我将它用于不同类型的图像集合,例如 Flex, Figure 以及 Gallery。下面来看示例:


::: Flex/images/img1.png/images/img2.png/images/img3.png Figcaption goes here:::
复制代码


它会被转换为:


<figure class="flex-33"><img src="/images/img1.png" /><img src="/images/img2.png" /><img src="/images/img3.png" /><figcaption>Figcaption goes here</figcaption></figure>
复制代码


这是怎么实现的?当然是用正则表达式啦!


use lazy_static::lazy_static;use regex::{Captures, Regex};use std::borrow::Cow; lazy_static! {    static ref BLOCK: Regex = Regex::new(        r#"(?xsm)        ^        # Opening :::        :{3}        \s+        # Parsing id type        (?P<id>\w+)        \s*        $         # Content inside        (?P<content>.+?)         # Ending :::        ^:::$        "#    )    .unwrap();} pub fn parse_fenced_blocks(s: &str) -> Cow<str> {    BLOCK.replace_all(s, |caps: &Captures| -> String {        parse_block(            caps.name("id").unwrap().as_str(),            caps.name("content").unwrap().as_str(),        )    })} fn parse_block(id: &str, content: &str) -> String {    ...}
复制代码


(图像和图形解析部分太长了,所以咱们直接跳过好了。)

扩展 pulldown-cmark

我还用自己的转换扩展了 pulldown-cmark:


// Issue a warning during the build process if any markdown link is broken.let transformed = Parser::new_with_broken_link_callback(s, Options::all(), Some(&mut cb));// Demote headers (eg h1 -> h2), give them an "id" and an "a" tag.let transformed = TransformHeaders::new(transformed);// Convert standalone images to figures.let transformed = AutoFigures::new(transformed);// Embed raw youtube links using iframes.let transformed = EmbedYoutube::new(transformed);// Syntax highlighting.let transformed = CodeBlockSyntaxHighlight::new(transformed);let transformed = InlineCodeSyntaxHighlight::new(transformed);// Parse `{ :attr }` attributes for blockquotes, to generate asides for instance.let transformed = QuoteAttrs::new(transformed);// parse `{ .class }` attributes for tables, to allow styling for tables.let transformed = TableAttrs::new(transformed);
复制代码


我以前也做过标题降级和嵌入裸 YouTube 链接之类的尝试,实现起来相当简单。不过现在想想,在预处理或后处理步骤中嵌入 YouTube 链接可能会更好。


Pandoc 能够支持向任意元素添加属性和类,这可太实用了。所以下面这部分:


![](/images/img1.png){ height=100 }
复制代码


可以转换成这个样子:


<figure>  <img src="/images/img1.png" height="100"></figure>
复制代码


这项功能随处都有用到,所以我决定在 Rust 中重新实现,只是这次要用一种不那么笼统和老套的方式。


我在 Pandoc 中用到的另一项冲突功能,就是评估 html 标签内的 markdown。现在的呈现效果有问题:


<aside>My [link][link_ref]</aside>
复制代码


我起初是打算在通用预处理步骤中实现这项功能的,但后来我总会忘记引用链接。因此在以下示例中:


::: AsideMy [link][link_ref]::: [link_ref]: /some/path
复制代码


link 就不再被转化为链接了,所有解析都只在:::内完成。


> Some text{ :notice }
复制代码


这样会调用一个通知解析器,它会在以上示例中创建一个 <aside>标签(而非 <blockquote> 标签),同时保留已解析的 markdown。


虽然现有 crate 会使用 syntect 添加代码高亮,但我还是自己编写了一个功能,把它打包在<code>标签中以支持内联代码高亮。例如,“Inside row: let x = 2;”会显示为:


Inside row: `let x = 2;`rust
复制代码

性能提升


我没花太多时间来优化性能,但还是发现了两个性能要点。


首先,如果使用 syntect 并包含自定义语法,那就应该把 SyntaxSet 压缩为二进制格式。


另一点就是使用 rayon 实现并行化渲染。所谓渲染,就是指 markdown 解析、应用模板和创建输出文件的过程。Rayon 的强大之处,在于它在执行这项任务时的效率只受限于 CPU 性能,而且易用性非常好(只要代码结构正确)。下面是渲染的简化示例:


fn render(&self) -> Result<()> {    let mut items = Vec::new();     // Add posts, archives, and all other files that should be generated here.    for post in &self.content.posts {        items.push(post.as_ref());    }     // Render all items.    items        .iter()        .try_for_each(|item| self.render_item(*item))}
复制代码


要实现并行化,我们只需要将 iter() 更改为 par_iter():


use rayon::iter::{IntoParallelRefIterator, ParallelIterator}; items    .par_iter() // This line    .try_for_each(|item| self.render_item(*item))
复制代码


这就成了,非常简单!


我也承认,这里的性能提升非常有限,真正的性能改善主要还是来自我使用的库。例如,我的旧站点使用由 Python 编写的外部 pygments 进程来实现语法高亮,而现在的替代方案是 Rust 编写的高亮器。后者不仅速度快得多,而且并行化难度也更低。

健全性检查

维护自己的网站,我才发现原来开发项目这么容易出错。比如一不留神就链接到了不存在的页面或图像,或者没有使用[my link][todo]来定义链接引用,而且在发布前还总是忘记更新。


所以,除了测试 watch 命令等基本功能之外,我还解析了整个站点,并检查所有内部链接是否存在且正确(也会验证/blog/my-post#some-title 中的 some-title 部分)。外部链接也是要检查的,但我在这里使用的是手动命令。


在文章的开头,我列出了自己之前的一些设置问题。下面咱们就看看具体解决得怎么样。在生成过程中,我也采取了比较严苛的检查标准,尽可能避免遗漏各种稀奇古怪的错误。

效果如何?

在文章的开头,我列出了之前设置中的一些问题。下面咱们就一起来看具体解决得怎么样。


  • 性能方面现在,还是那台低配笔记本电脑,完整的站点重建(不包含编译时间)只需要 4 秒。性能一下子提升了 18 倍,这个成绩算是相当不错了。当然,这里面肯定还有进步空间——比如,我使用 rayon 处理文件 IO,如果采取异步机制肯定还能再优化一些;而且我也没有使用缓存系统,所以每次构建时都得重新生成所有文件(但通过观察,我发现构建过程还挺智能的)。


请注意,我不是说 Rust 就一定比 Haskell 更快,这里比较的只是两种具体实现。相信肯定有高手能在 Haskell 中实现同样的速度提升。


  • 单一依赖现在我的所有功能都在 Rust 中实现,不需要安装和维护任何外部脚本/工具。

  • Cargo 不添麻烦只要在系统里用上 Rust,cargo build 就永远服服帖帖、不添麻烦。我觉得这可能就是低调的 Rust 最突出的优势之一——build 系统不给人找事。


大家用不着手动查找丢失的依赖项,牺牲某些子功能来实现跨平台,或者在构建系统自动拉取更新时造成破坏。往椅子里一躺,等着代码编译完成就行。

Rust 治好了我的精神内耗

虽然我发现在 Rust 当中,创建系列文章或者上一篇/下一篇链接之类的功能确实更轻松,但我并不是想说 Rust 就比 Haskell 更简单易用。我的意思是,Rust 对我个人来说比 Haskell 更容易理解。


而其中最大的区别,很可能在于实践经验。我最近一直在用 Rust,而从小十年前使用 Haskell 完成网站创建以来,我就几乎没跟 Haskell 打过什么交道。所以如果我也十年不接触 Rust,那再次使用起来肯定也是痛苦万分。


总体来说,我对自己的这次尝试非常满意。这是个好玩又有益的项目,虽然工作量超出了我的预期,但也确实消除了长期困扰我的老大难问题。希望我的经历对各位有所帮助。


原文链接:


https://www.jonashietala.se/blog/2022/08/29/rewriting_my_blog_in_rust_for_fun_and_profit/

2022-08-30 14:206132

评论 1 条评论

发布
用户头像
看了另外一个版本的翻译,这个翻译比那个好:),不错不错。
2022-09-05 16:06 · 广东
回复
没有更多了
发现更多内容

引领产业创新,河套国际性产业与标准组织聚集区亮相2024MWC上海

最新动态

如何在前端项目中制定代码注释规范

伤感汤姆布利柏

一文带你了解Mock 技术体系

霍格沃兹测试开发学社

VMware vCenter Server 8.0U3 发布下载 - 集中式管理 vSphere 环境

sysin

vSphere vcenter esxi

IPQ4028 vs. IPQ4019: Performance, Application, and Technical Analysis

wifi6-yiyi

wifi5 WiFi5G

性能测试公开课来啦!从性能测试方案到性能调优,从负载均衡到中间件测试,全方位讲解性能测试核心内容

测吧(北京)科技有限公司

测试

白熊AI推出两款大模型应用产品:一站式智能体开发,十万节点0.9秒响应;0门槛、低代码,全流程自动化大模型训练平台

白熊AI

白熊AI 大模型训练平台 RAG知识库 Agent智能体 Workflow工作流

以“好运”潮饰 “牵”情绪共鸣 老庙一串好运系列与消费者展开情绪对话

科技大数据

青海正规等保测评服务公司是4家吗?分别在哪里?

行云管家

等保 青岛 等级保护 等保测评

PHP中常用的设计模式

左诗右码

php

SaaS 出海:Databend Cloud 的定位与实践

Databend

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 标准版和厂商定制版

sysin

macos esxi OEM unlocker dell

GitLab 使用 Docker Compose 部署

极狐GitLab

制造业采购堡垒机的四大必要性看这里!

行云管家

网络安全 数据安全 堡垒机 制造

ToDesk优惠码是什么,如何使用?

小喵子

远程 远程桌面 远程工具

时延降低 50%,小红书图数据库如何实现多跳查询性能大幅提升

小红书技术REDtech

分布式 查询 图数据库 图数据库实战 并行查询

VMware ESXi 8.0U3 发布下载 - 领先的裸机 Hypervisor

sysin

vSphere esxi

手把手教你用Charles抓包

AntDream

网络 charles Android; 网络抓包 抓包工具

云端部署mes/万界星空科技云mes系统

万界星空科技

mes 云mes 万界星空科技

科普:什么是 BC-404 ?全方位解读最新通缩型 NFT 标准

NFT Research

NFT ERC404

PHP 之道笔记整理:最佳实践与安全指南

左诗右码

php

接口测试:Mock 技术体系

测试人

软件测试

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动版)

sysin

macos esxi 驱动 OEM BIOS

小窗口大魔力,实况窗服务实时掌控重要信息变化

HarmonyOS SDK

HarmonyOS

VMware vSphere 8.0 Update 3 发布下载 - 企业级工作负载平台

sysin

vSphere vcenter esxi

零成本搭建个人图床服务器

北桥苏

GitHub Pages 免费图床 图床搭建

pd17虚拟机安装包:Parallels Desktop 17 激活版

你的猪会飞吗

mac软件下载 Mac虚拟机下载 PD17虚拟机

亚马逊秘密研发 AI 对标 ChatGPT;语音 AI 未来五年或将释放 100 亿美元市场 丨 RTE 开发者日报

声网

Rust 治好了我的精神内耗_文化 & 方法_Jonas Hietala_InfoQ精选文章