写点什么

Google 的二进制编码格式:Protocol Buffers

  • 2008-07-24
  • 本文字数:2081 字

    阅读完需:约 7 分钟

Google 不久前开源了一种数据交换格式——Protocol Buffers。在它语焉不详的名字背后,藏着的是:

  • 一种描述数据格式的 IDL
  • 对 IDL 所描述的格式进行编码的一种二进制编码方案
  • 通过代码生成器实现的数据绑定支持,Google 提供了 C++、Python、Java 实现

它的 IDL 用来描述数据格式,下面是来自Protocol Buffers 项目网站的例子 <pre id="qz4x11">message Person { <br id="qz4x12"></br> required int32 id = 1; <br id="qz4x13"></br> required string name = 2;<br id="qz4x14"></br>  optional string email = 3; <br id="qz4x15"></br>} 要明确指定字段名称对应的序号(称为“tag”),才能在以后变更格式。如果用自动分配的序号,对格式的更改会引起麻烦(比如在中间插入一个新字段)。为什么呢?因为在二进制格式,tag 是用来说明某段字节编码所表示的(协议描述里的)字段的。明确地分配 tag 序号,搭配上忽略未知 tag 的规则,在变更格式的时候就可以从容增加字段而不影响已有字段。 格式描述保存在.proto 文件里,编译成源代码之后使用。Protocol Buffers 发布的时候已经包括了对 C++、Python 和 Java 的支持。对其他语言的支持也正在进行之中,例如Ruby、Erlang、Perl、Haskell 等等。有意增加其他语言支持的人都应该会很高兴有人已经将.proto 文件的语法反向工程成了EBNF

语言支持就是把.proto 文件转换成目标语言的代码,组成映射到.proto 文件所定义格式的一些类。有了语言支持就能从二进制数据中重组出对象,修改里面的字段,然后把对象的状态重新序列化成二进制格式。

一如以往Google 发布新项目的情况, Protocol Buffers 也激起了不小的骚动,占据了不少博客帖子。 Google 的官方博客也解释了开发Protocol Buffers 的原因,里头曾提到XML 用作编码格式效率非常低。这种说法引来了潮水般的博客贴——有些认为Protocol Buffers 意味着XML 的结束,有些认为Protocol Buffers 不如XML。 Ted Neward 对现状做了如下总结

总而言之,如果你想要松散耦合的终端程序,保留最大的灵活性,那就接着用 XML,包装进 SOAP 封包或者符合底层传输(也就是说 HTTP,因为依赖其他传输形式的 REST 还没有真正被定义)要求的 RESTful 封包。 如果你需要二进制格式,Protocol Buffers 是其中一个答案……但 ICE 也是,甚至 CORBA(虽然参与者日少已经使它失去了吸引力)。不要仅仅由于贴上了 Google 的商标,就忽略了对技术优势和劣势的分析。

与 XML 或 JSON 的比较很容易使人忽略 Protocol Buffers 其实是对现有技术的重新实现。除了前面已经提到的,还有一项广泛使用的技术—— ASN.1 也是其竞争对手。ASN.1 虽然已经存在了几十年,却不怎么显山露水。从用 ASN.1 描述的格式名单来看,这是非常奇怪的一件事情,请看看其中的几种格式:

  • X.509 证书(许多系统的 PKI 都使用,包括 SSL)
  • LDAP
  • Cryptographic Message Syntax(CMS)用于电子邮件加密
  • PKCS#1,用于 RSA 密匙
  • 3G 电话网络

ASN.1 的用途广泛;例如,日常的电信通信就用到 ASN.1 编码的数据。ASN.1 基于与 Protocol Buffers 相似的概念——它也用 IDL 描述数据,用编译器为目标语言生成代码。但两者有一处关键差别—— ASN.1 允许多种编码方法,可以根据用途来选择。 Canonical Encoding Rules(CER)是其中的一种编码方式,其强制实行严格的编码规则,这对数字签名来说很关键,因为稍有差异就意味着很大的区别,其他可用的编码方式还有 Packed Encoding Rules(PER) XML Encoding Rules(XER)允许将数据编码成 XML,ASN.1 也就成了与 XML Schema 并列的选项。 Fast Web Services 技术就能把 XML Schemas 映射成 ASN.1,然后用 ASN.1 在端点之间进行编码效率更高的通信。

还有一种技术与 Google 的 Protocol Buffers 相似,那就是 Facebook 的 Thrift ,它的工作原理也差不多(见Protocol Buffers 与Thrift 的逐点对比)。Binary XML 也是一种不太成功的类似技术,它已经在XML 界酝酿了很久,但成功仍然遥遥无期。Erlang 的创造者Joe Armstrong 也在回答关于Protocol Buffers 的问题时提到可以把UBF 用作一种二进制格式直接传输程序字节码,无需解析。

这些技术共同的目标都是提高效率。有人可能觉得在线路上传输的数据量不是问题,因为有数据压缩技术。然而压缩/ 解压缩只是在使用数据前后执行的额外步骤,实际的解析过程中使用的仍然是没压缩的大量数据。对于XML 来说,意味着一次又一次重复地读取同样的元素标签——简直与Protocol Buffers 的数字标签没法比。当然,改善的程度取决于实际的格式。主要由字符串组成的格式效果就没有主要由数字数据组成的格式那么显著。

Mark Pilgirm 也整理了一份对Protocol Buffer 的反响。还有一个值得注意的方面,从Protocol Buffers 身上可以看出一个RPC 系统的蛛丝马迹。虽然目前还没有向大众公开,但在 Steve Vinoski 的博客上有一位 Google 的员工提到,Google 内部确有这样一个 RPC 系统在担当重任。

你是否遇到过出于效率原因而考虑二进制格式的时候?如果是,你是自己搞一套还是找现有的技术?

阅读英文原文: Google Introduces Binary Encoding Format: Protocol Buffers

2008-07-24 21:528233
用户头像

发布了 225 篇内容, 共 64.3 次阅读, 收获喜欢 50 次。

关注

评论

发布
暂无评论
发现更多内容

聊聊产品中的状态机设计

产品海豚湾

产品经理 产品设计 产品开发 需求分析 主业务流程梳理

最新2021快手面试Java岗面经,成功手拿offer,开心到飞

钟奕礼

Java 程序员 Java 面试 java编程

漏洞挖掘之命令注入漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

极光笔记 | 以静制动:行为触发营销助力用户转化

极光JIGUANG

营销 运营 消息推送 用户运营

专科非科班怎么选择培训机构

小谷哥

2021最强网易Java岗面试题,(实战篇)进大厂必备~不看后悔

钟奕礼

Java 程序员 java面试 java编程

openEuler 倡议建立 eBPF 软件发布标准

openEuler

开源 云原生 操作系统 内核 ebpf

低代码实现探索(五十四)低代码的描述文本

零道云-混合式低代码平台

5分钟带你彻底掌握async底层实现原理!

千锋IT教育

AH协议

穿过生命散发芬芳

12月月更 AH协议

socket是并发安全的吗

C++后台开发

网络编程 socket 多线程 TCP/IP Linux服务器开发

行业分析| 智慧头盔在快对讲上的应用与实践

anyRTC开发者

音视频 智能设备 视频通话 快对讲 智慧头盔

学习大数据该怎么选择培训机构?

小谷哥

2022-12-15:寻找用户推荐人。写一个查询语句,返回一个客户列表,列表中客户的推荐人的编号都 不是 2。 对于示例数据,结果为: +------+ | name | +------+ | Wil

福大大架构师每日一题

数据库· 福大大

阿里三面,讲讲不同场景下并发Map容器最优使用。凉凉送给自己

钟奕礼

Java 程序员 Java 面试 java编程

互联网时代,云计算的 6 大特征

Finovy Cloud

云计算 云渲染

零基础学web前端,哪些培训机构比较好

小谷哥

java软件培训班毕业后找工作吗

小谷哥

2021最新百度Java岗四轮面试题,(三轮技术面+一轮HR面)

钟奕礼

Java 程序员 java面试 java编程

第五届“强网”拟态防御国际精英挑战赛在南京举行

科技热闻

当打造一款极速湖分析产品时,我们在想些什么

StarRocks

数据湖 湖仓一体

可视化:数据可视化发展史

Data 探险实验室

数据分析 可视化 数据可视化

通过WSL2运行GUI程序

吴脑的键客

WSL2 GUI

ToB业务迎来连续增长,腾讯云的华丽转身

ToB行业头条

跬智信息(Kyligence)荣登「甲子20」中国数据智能领域最具商业潜力科技企业榜

Kyligence

大数据 数据分析 数据智能 指标中台

瓴羊Quick BI 填报组件让数据分析和可视化呈现轻而易举

对不起该用户已成仙‖

从vivo的创新方法论中,读懂高端突破的“因果”

脑极体

节能降耗 | AIRIOT智慧电力综合管理解决方案

AIRIOT

物联网 智慧电力

mysql转国产数据库Gbase 8s 常见函数脚本

@下一站

数据库 12月日更 12月月更 Gbase8s 国产软件

北京哪家web前端开发机构比较好?

小谷哥

chatGPT的爆火,是计算机行业这次真的“饱和”了?

千锋IT教育

Google的二进制编码格式:Protocol Buffers_Java_Werner Schuster_InfoQ精选文章