LinkedIn Engineering 发布并开源了其分布式、半结构化数据库 SenseiDB 。SenseiDB 是 LinkedIn 背后搜索基础架构使用到的技术,LinkedIn 主页、 LinkedIn Signal 以及其他搜索功能(如人员 / 公司搜索)均使用了 SenseiDB。SenseiDB 最初是因为公司需要,由内部人员开发,而现在它以开源方式发布在 Search, Network, Analytics 项目之下。
SenseiDB 是一个 NoSQL 数据库,它专注于高更新率以及复杂半结构化搜索查询。熟悉 Lucene 和 Solor 的用户会发现,SenseiDB 背后有许多似曾相识的概念。SenseiDB 部署在多节点集群中,其中每个节点可以包括N 块数据片。 Apache Zookeeper 用于管理节点,它能够保持现有配置,并可以将任意改动(如拓扑修改)传输到整个节点群中。SenseiDB 集群还需要一种模式用于定义将要使用的数据模型。
从SenseiDB 集群中获取数据的唯一方法是通过 Gateways (它没有“INSERT”方法)。每个集群都连接到一个单一 gateway。你需要了解很重要的一点是,由于 SenseiDB 本身没法处理原子性(Atomicity)和隔离性(Isolation),因此只能通过外部在 gateway 层进行限制。另外,gateway 必须确保数据流按照预期的方式运作。内置的 gateway 有以下几种形式:
- 来自文件
- 来自 JMS 队列
- 通过 JDBC
- 来自 Apache Kafka
应用程序开发人员还可以自定义 gateway。这里是一个 gateway 示例,它从 Twitter 更新中获取数据。
通过借助输入数据流将数据送入集群,SenseiDB 允许使用定义好的模式进行多方位查询。为此,它还提供了一个可由任意 HTTP 客户端访问的 REST API 。该 API 的灵感来源于 ElasticSearch’s Query DSL 。SenseiDb 还为 API 提供了 Java 和 Python 封装,相信 Ruby 版本很快也会出现。
最后,SenseiDB 提供了浏览查询语言(Browse Query Language,简称BQL)作为另一种查询方式。BQL 类似SQL(目前仅包含SELECT 语句),它可以用一种更方便的方式查询SenseiDB。此外,集群安装还附带了一个图形化Web 控制台,用作对BQL 查询进行检查和调试。
评论