网络犯罪以及其他恶意行为的不断增加正促使企业部署更多的安全控制、收集越来越多的相关数据。结果,大数据分析方面的进展被用于以更宽和更深的分析为目的的安全监控中,以保护昂贵的企业资源。大数据安全分析技术融合了大数据的可扩展性,并将其与 Advanced Analytic 和安全事件管理系统( security event and incident management systems,SIEM)结合起来。在不久的将来,大数据安全分析将会变成像病毒检测和漏洞扫描一样常见。
因此,大数据安全分析适用于很多用例,但也不是所有的用例都适用。考虑一下探测和阻挡高持续性威胁(Advanced Persistent Threat,APT)的技术挑战。采用这些技术的攻击者或许会采用慢节奏的、低可见性的攻击方式来避免以避免被探测到。传统的日志和监控技术会漏过这种类型的攻击。攻击的各步可能发生在不同的设备的不同时间段,而且看起来是毫无关联的。这样,一个攻击者杀招的关键部分可能与正常行为差别不大。针对可疑行为的日志和网络流扫描有时也会漏掉这些东西。避免遗漏数据的一种方法就是收集尽可能多的信息。这就是大数据安全分析平台所采用的方法。
正如字面意思所言,该安全分析的方法利用了专门为收集、分析和管理大规模、高速度数据而设计的工具。这些技术也同样用于相关产品,如针对流视频用户的电影推荐系统和为优化车队的运输效率而设计的车辆性能特性分析平台等。此外,这些技术还可以应用于信息安全。本文重点分析 Cybereason、Fortscale、Hawkeye、IBM、LogRhythm、RSA 和 Splunk 等若干大数据安全工具供应商的最主要的产品特性。其分析主要依据实现这些平台所有好处的五大必需要素:
- 统一的数据管理
- 支持日志、漏洞和流等多种数据类型
- 可扩展的数据获取
- 信息安全相关的分析工具
- 合规报告
因素 1:统一的数据管理
统一的数据管理是一个大数据安全分析系统的基础,负责存储和查询企业数据。由于关联数据库在扩展时比分布式 NoSQL 数据库代价要高,处理大规模数据通常会使用 Cassandra 或 Accumulo 等这样的分布式数据库。当然,这些数据库也其缺点。例如,实现 ACID transaction 等这些理所当然存在的数据库特征的分布式版本就变得非常困难。
因此,大数据安全分析产品背后的数据管理平台需要在数据管理特性和代价、可扩展性之间进行权衡。数据库应该具备在不阻塞的情况下实时写入新数据的能力。相似的,查询也要能够支持针对流入的安全数据的实时分析。
由于 Hadoop 已经成为流行的大数据管理平台和相关的生态系统,采用它作基础的大数据安全分析平台也很常见。例如, Fortscale 就使用了 Cloudera 的 Hadoop 平台。这使得 Fortscale 平台可以随着集群中新加入节点的数量而线性扩展。
IBM 的 QRadar 使用了提供数据存储水平扩展功能的分布式数据管理系统。在一些情况下,SIEM 或许只需要访问本地数据。但是,在取证分析等情况下,用户或许需要跨分布式平台搜索信息。IBM 的 QRadar 还集成了一个能够跨平台或本地检索的搜索引擎。同时,该大数据 SIEM 系统使用的是数据节点,而非存储域网(SAN)。这可以帮组减少花费和管理复杂度。这个基于数据节点的分布式存储模型可以扩展到 P 字节的存储空间——可以很好满足那些需要很多大规模长期存储的组织的需求。
RSA 安全分析也采用了分布式的联合架构来保证线性扩展。当扩展到大规模数据时,RSA 工具中的分析工作流解决了一个关键需求:区分事件和任务的优先级,以改善分析的效率。
Hawkeye 分析平台(Hawkeye AP)是基于一个专门处理安全事件数据的数据仓库平台构建而成。除了拥有底层、可扩展的数据管理(例如,在跨多个服务器的镀铬文件中存储大规模数据的能力)功能,拥有以结构化的方式查询数据的工具也很关键。Hawkeye AP 采用了分时存储数据的方式,避免了全局重建索引的工作。而且,它被设计为了只读的数据库。一方面,它使能了性能优化;另一个更重要方面,它可以保证数据在写完成后不会被篡改。最后,Hawkeye AP 采用了专门针对分析应用有所优化的列导向数据存储,而非行导向的存储。
因素2:支持多种数据类型
容量、速度和种类是大数据的三个关键特性。安全事件数据的多样性使得把数据集成到一个大数据安全分析产品变得富有挑战性。
事件数据的收集粒度是不同的。例如,网络报文就是底层、细粒度的数据;而有关任何管理员密码变化的日志项就是粗粒度的。尽管数据的收集粒度不同,他们之间仍然是有关联的。网络报文就可能包含了攻击者访问服务器,甚至在取得访问权限后修改管理员密码的相关信息。
不同类型的事件数据的含义也各不相同。网络报文信息可以帮助分析人员了解两个终端之间传输的内容,而一份漏斗扫描日志在某种意义上描述了服务器或其他设备在一段时间内的运行状态。大数据安全分析平台需要理解这些数据类型的含义,以更好的进行数据集成。
RSA Security Analytics 的解决办法是采用一个模块化的结构,以此保证在维持增量添加其他源的能力的同时,支持多种数据类型。平台本身是为了捕获大规模的满报文、NetFlow 数据、末端数据和日志。
有时,多个数据类型就意味着多种安全工具。例如,IBM 的 QRadar 就有一个漏洞管理组件。该组件专门负责从各种各样的漏洞扫描器中整合数据,并把网络使用相关的信息添加到数据中。IBM 的 Security QRadar Incident Forensics 是另外一个专门利用网络流数据和 full-packet 抓包来分析安全事故的模块。该取证工具包括了一个能够对 TB 级别的网络数据进行检索的引擎。
LogRhythm 的 Security Intelligence Platform 是另外一个大数据安全分析平台的例子。该平台支持非常多的数据类型,包括系统日志、安全事件、审计日志、机器数据、应用日志以及流数据。通过分析来自这些源的原始数据,它可以产生有关文件完整性、进程活跃度、网络通信情况、用户以及活动的二级数据。
Splunk Enterprise Security 允许分析人员检索数据并执行可视化关联,以此识别恶意事件和收集有关这些事件上下文的数据。
因素 3:可扩展的数据获取
大数据分析安全产品必须要能够从服务器、终端、网络和其他架构组件中获得数据。这些设备的状态是一直都在发生变化的。数据获取组件的主要风险在于它是否能够及时接收流入的数据。一旦数据获取组件出现问题,数据就会丢失,威胁到整个平台的存在意义。
系统可以通过维护一个容量很大、吞吐率很高的队列来实现可扩展的数据获取。此外,一些数据库通过对写操作只追加的方法来支持大规模写。这样,新流入的数据直接添加到 commit 日志的末尾,而非磁盘的某个块。该方法可以大大减少随机写操作的延迟。或者,数据管理系统会维护一个写缓冲区。如果消息出现突发传输或者磁盘出现写失效,缓冲区可以帮助暂时存储数据,等待数据库恢复正常。
Splunk 是一个广为人知的数据获取平台。该平台不仅提供了连接到数据源的连接器,还允许定制这些连接器。其中,获取后的数据以比较松散的形式进行存储和索引,以保证支持变化的数据类型和快速的查询反馈。
IBM QRadar 支持从单设备到跨地域的分布式系统的不同规模的部署。与其他产品类似,该大数据产品是为了满足大公司的需求。它曾被用于处理每秒钟几十万的真实应用事件。一些小的机构或刚开始使用 IBM QRadar 的企业或许会选择在云环境中部署该产品,以减少硬件开销和管理。混合部署也是可以的。这样,事件和流或许在云端处理,而整理后的事件数据发送会本地系统进行处理。
另外一个重要的整合类型就是数据增强。它是指在收集事件数据的同时,把相关的信息也一并添加进去。例如,RSA Security Analytics 就会把有关网络回话、威胁指示器等细节添加到网络数据中,帮助分析人员更好的理解底层安全数据所面临的情况。
一个大数据分析平台如何收集收据是另外一个要考虑的关键点。收集数据所需要的时间使得探测安全事件的速度可以有所放缓。数据收集点的位置决定了它所收集的数据的宽度和类型。例如, Cybereason Platform 部署的传感器就运行在终端操作系统的用户空间。这样,数据收集就可以在影响用户体验和更底层内核功能的情况下进行。即使是在设备无法连接企业网络时,Cybereason 的传感器仍然可以收集数据。
因素 4:安全分析工具
Hadoop 和 Spark 等大数据平台都是通用型的工具。尽管它们可以被用于构建安全工具,它们本身并不是安全分析工具。大数据安全分析工具应该能够扩展,以满足企业所产生的大规模数据的分析需求。而Hadoop 和Spark 等这样的工具正好满足了这样的条件。同时,分析人员也应该能够以信息安全的角度所应该取得的抽象层次来查询事件数据。例如,一个分析人员应该能够查询工作在特定服务器或应用的用户的联系以及这些机器/ 应用之间的联系。这种类型的查询就需要图型分析工具,而非传统的关联数据库中的行查询或列查询。
Fortscale 采用了数据科学中常见的机器学习和统计分析技术,以适应安全环境中的变化。这些技术使得 Fortscale 可以执行基于数据而非预定义规则的分析。当网络中的基准行为发生变化时,机器学习算法可以在没有人为更新规则集的情况下自动探测到这些变化。
RSA Security Analytics 包括了预定义的报告和规则,使得分析人员可以很快开始使用 SIEM 收集到的数据。
安全分析也同样非常依赖恶意行为相关的知识。RSA Security Analytics 包括的 RSA Live 服务负责将数据处理和关联规则发送到部署的设备中。这些新的规则可被用于分析刚到达的实时数据和存储在 RSA Security Analytics 系统的历史数据。与 Fortscale 类似,RSA Security Analytics 也采用了数据科学的相关技术来增强分析的质量。
此外,LogRhythm 的分析工作流包括了处理、机器分析和取证分析三个阶段。处理阶段负责数据转换,提高原始数据被有用的模式探测到的可能性。它包括了事件标准化、数据分类、 metadata 标记和风险上下文分析。
因素 5:合规报告、警告和监控
合规报告是当今企业所必须要具备的功能。很多用于合规目的的数据元素都和最好的安全实践绑定在一起。甚至对于那些对合规报告没有硬性需求的公司而言,合规报告也可以很好的用于内部规划。。了解一个大数据安全平台的报告制度满足了企业对于合规方面的特殊需求,是非常重要的。
IBM Security QRadar 的 Risk Manager 插件提供了网络设备配置的合规及风险管理的工具。该插件的功能包括自动监控、多供应商产品审计的支持、合规策略评估以及威胁建模。
就像之前所提到的,Fortscale 使用机器学习算法来不断评估基准活动的变化和探测异常事件。当系统探测到这些事件时,它可以生成警告,并提供事件的相关信息。
为了节约终端用户的时间,RSA Security Analytics 本身就带有近 90 种模板,以满足 SOX、HIPAA、PCI DSS 等的报告需求。
SIEM 系统中的报告和警告远远超过了固定报告和简单警告的形式。例如,Cybereason Platform 就可以自动探测恶意活动。该平台还提供了一个调查窗口,用来将攻击时间线、受影响的用户和设备等信息汇总并以图形的方式展示出来。
Splunk Enterprise Security 提供了包含关键安全和性能指针以及趋势指针的仪表盘,以进行不间断的监控。而且该平台还支持工作流的优先级。Splunk 平台还支持高优先级用户的追踪和关键应用程序的访问报告。
Hawkeye AP 本身包含了 400 种报告,而且支持根据特殊需求进行修改。由于 Hawkeye AP 使用关联数据技术,并支持 ANSI Standard SQL、ODBC 和 JDBC 驱动,用户可以可以使用流行的企业级报告工具来创建定制化的报告。
LogRhythm 的平台包括了分级后的风险的警告、标准报告和一个实时的报告仪表盘。而且,它还包括了案例管理工具、证据锁以及事件追踪数据等额外工具用于取证分析。
大数据安全分析工具的功能
大数据安全分析工具可以分析很多种的数据类型,也可以处理大规模的数据。当然,并非所有的机构都需要用到当前大数据安全分析产品的所有功能。但是,正在寻找保护企业数据安全工具的机构应该考虑大数据安全分析工具所能扮演的角色。
对于大企业和需要存储详细的事件数据的企业,IBM QRadar 是一个不错的选择。该平台能够扩展到 P 字节规模的能力将会是一个很大的亮点。Hawkeye 的数据仓库模型和列导向存储使得它能够针对信息安全进行商业智能的报告。这样,当企业需要高级报告或者定制化的报告时,Hawkeye AP 就是一个很好的选择。而当企业需要在设备离线的情况下继续捕获事件数据时,它可以考虑 Cybereason。此外,RSA Security Analytics 和 LogRhythm’s Security Intelligence Platform 可以很好的配合来处理很多数据类型的情况。Splunk 提供了大量的数据源连接器,可以很好满足拥有大量数据源的企业的需求。
大数据安全分析目前主要被大企业所采用。但是,随着相关工具的花费和复杂度不断降低,中等规模的企业、甚至小企业最后也肯定会意识到该技术的好处。
感谢杜小芳对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论