写点什么

基于机器学习的自动化网络流量分析

  • 2022-04-13
  • 本文字数:2411 字

    阅读完需:约 8 分钟

基于机器学习的自动化网络流量分析

一、概述


目前机器学习广泛应用于网络流量分析任务,特征提取、模型选择、参数调优等众多因素决定着模型的性能,每当面对不同的网络流量或新的任务,就需要研究人员重新开发模型,这个反复性的过程往往是费时费力的。因此有必要为不同网络流量创建一个通用的表示,可以用于各种不同的模型,跨越广泛的问题类,并将整个建模过程自动化。本文关注通用的自动化网络流量分析问题,致力于使研究人员将更多的精力用于优化模型和特征上,并有更多的时间在实践中解释和部署最佳模型。

二、自动化网络流量分析


传统基于机器学习的网络流量分析严重依赖人工,在实践中,获得特征、模型和参数的最优组合通常是一个迭代的过程,这个过程有一些弊端。首先,数据的合适表示和特征选择对于流量分析任务是十分重要的,但即便有专业领域知识,特征工程仍然是一个脆弱且不完善的过程,人工分析时可能会忽略不够明显的或包含复杂关系的特征;其次,网络环境复杂多变,流量模式的变化带来特征的失效;最后,对于每一个新的流量检测或分类任务,都需要重新设计新的特征,选择合适的模型,并重新调整参数。


为了避免这些问题,本节介绍一种适用于不同网络流量分析任务的自动化的方法[1],通过对网络流量进行统一表示,并结合自动机器学习(AutoML)方法,实现在不同网络流量分析问题上的简单快速的自动化迭代和部署。

2.1 数据表示


对于许多分类问题,数据表示与模型选择同等重要,所以在应用机器学习方法时,如何对数据进行表示和编码是非常重要的。对于网络流量数据的编码需要满足以下三个要求:


(1)完整的表示。我们的目标不是选择特定的特征,而是一种统一的数据编码,以避免依赖专家知识,所以需要保留包含包头在内的所有数据包信息;


(2)固定的大小。许多机器学习模型的输入总是保持相同的大小,所以每个数据包表示都必须是常量大小;


(3)固有的规范化。当特征被归一化后,机器学习模型通常会表现得更好,也能减少训练时间并增加模型的稳定性,所以如果数据的初始表示本身就是规范化的,将会非常方便;


(4)一致的表示。数据表示的每个位置都应该对应于所有数据包包头的相同部分,也就是说,即使协议和报文长度不同,特定的特征总是在数据包中具有相同的偏移量,对齐后的数据都能让模型基于这样的前提来学习特征表示。


如图 1 所示,网络流量表示的主要方式包括语义表示法和朴素二进制表示法。


(1)语义表示法:每个报头都有各自的语义字段,但它不保留具有区分度的可选字段的顺序,同时需要领域专业知识来解析每个协议的语义结构,即使拥有这些知识,后续也还是不可避免进行繁琐的特征工程;


(2)朴素二进制表示法:使用数据包的原始位图表示来保持顺序,但是忽略了不同的大小和协议,导致两个数据包的特征向量对同一特征具有不同的含义,这种不对齐可能会在重要特征的地方引入噪声而降低模型性能,同时也因为无法将每一位都映射到语义上而导致不可解释。


图 1 语义表示法和朴素二进制表示法


以上两种表示方法都无法满足统一化表示数据的需求,如图 2 所示,研究人员结合语义表示法和朴素二进制表示法提出一种统一的网络数据包表示方法 nPrint。首先,它会保证任何数据包都可以被完整表示而不丢失任何信息;然后,使用内部填充确保每个数据包以相同数量的特征表示,并且每个特征具有相同含义,这种在位级上可解释的表示使我们能够更好的理解模型;其次,直接使用数据包的位,区分于某个位被设置为 0,将不存在的包头用-1 填充;最后,每个数据包都用相同数量的特征表示,对于给定的网络流量分析任务,将载荷设置为可选的字节数。此外,nPrint 具有模块化和可扩展的特性,不仅可以将其他协议添加到表示中,也可以将一组数据包表示串联起来构建多包的 nPrint 指纹。


图 2 nPrint

2.2 nPrintML


专家往往花费数周甚至数年从原始数据包中提取特征,并在认为最好的一个或一组模型上进行训练,最后通过手工或结构化搜索对模型进行调优。为了将整个过程标准化,在 nPrint 的基础上结合 AutoML 工具,提出 nPrintML,如图 3 所示,实现了机器学习流程的自动化。


图 3 nPrintML


nPrint 使不同流量分析工作的特征提取过程标准化,AutoML 旨在自动化特征选择、模型选择和超参数调优,以便为给定的特征和带标签数据集找到最优模型。最终,nPrint 为每个网络流量分析任务提取最佳特征,AutoML 用于确定最佳模型和超参数。


因为 AutoGluon 集成了多个性能良好的单一模型,优于许多其他 AutoML 工具,所以选择 AutoGluon 作为 AutoML 工具。这里使用处理表格数据的功能子集 AutoGluon-Tabular,它通过搜索一组基模型来进行特征选择、模型选择和超参数优化,包括深度神经网络、基于树的方法(如随机森林)、非参数方法(如 k 近邻)以及梯度增强树方法。此外,AutoGluon-Tabular 也能从基模型中创建加权集成模型,以更少的训练时间实现比其他 AutoML 工具更高的性能。


研究人员结合 nPrint 与 AutoGluon,用 python 实现了 nPrintML[2],允许用户在单个调用中在整个目录上运行。以被动操作系统检测为例,用例如下:


nprintml -L os_labels.txt -a index -P traffic.pcap -4 –t

2.3 实验结果

针对 8 个网络流量分析场景,图 4 展示了用 nPrintML 进行分析的案例研究,实验结果表明,nPrintML 不仅可以解决不同场景的网络流量分析问题,并且具有相较于传统方法更好的性能。


图 4 nPrintML 案例研究结果

三、小结


将机器学习应用于网络流量分析任务的性能,除了取决于模型本身之外,数据的适当表示和特征的选择同样重要。本文介绍了一种自动网络流量分析的新思路,通过将数据包进行统一表示,并将其转化为适合表示学习和模型训练的格式,然后结合现有的自动机器学习,最终将整个网络流量分析过程完全自动化。这种方法不仅适用于常见的网络流量分析任务,而且表现出比现有模型更好的性能。

参考文献


[1] Holland J , Schmitt P , Feamster N , et al. New Directions in Automated Traffic Analysis. 2021 ACM Computer and Communications Security Conference [C]. 2021.

[2] https://nprint.github.io/

2022-04-13 09:173079

评论

发布
暂无评论
发现更多内容

更快内存、更大缓存,第五代英特尔至强可扩展处理器为多元工作负载提供出色性能

E科讯

天猫商品详情接口json 格式返回介绍

tbapi

天猫商品详情数据接口 天猫商品API接口 天猫API接口

万界星空科技线束行业MES系统

万界星空科技

数字化转型 工业互联网 mes 线束行业 线束mes

NFTScan | 12.11~12.17 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan nft工具

万界星空MES安灯管理:优化生产监控的重要工具

万界星空科技

数字化转型 mes 安灯系统 mes安灯管理 生产管理

Amazon CodeWhisperer 在 vscode 的应用

亚马逊云科技 (Amazon Web Services)

人工智能 云上探索实验室 Amazon CodeWhisperer

社招邀请|阿里云热招岗位简历投递中!

阿里云CloudImagine

云计算

火山引擎DataLeap:助你实现从数据研发1.0到数据研发3.0的跨越

字节跳动数据平台

大数据 数据中台

米哈游宣布启动鸿蒙原生应用开发

新消费日报

Flutter Web 和 H5

A __Sun A0 .

flutter HTML5, CSS3 flutter for web

灯具照明行业智能制造MES系统解决方案

万界星空科技

数字化转型 工业互联网 mes 智能照明 灯具mes

mac强大的音视频转换器:Permute 3激活中文最新版

胖墩儿不胖y

Mac软件 音视频转换器 音视频格式转换

虾皮Shopee商品详情API:电商实时数据获取的关键

Noah

极限科技(INFINI labs)荣获中国信通院大数据“星河”标杆案例

极限实验室

中国信通院 极限科技 “星河”标杆案例

微店商品API:电商的实时数据利器

Noah

本周六下午【 TiDB 社区交流活动 上海站】 数据库运维有话聊,谈谈你了解的灾备实践,参会即可获得社区周边 3 件套

TiDB 社区干货传送门

#数据库

Amazon CodeWhisperer 体验

亚马逊云科技 (Amazon Web Services)

人工智能 云上探索实验室 Amazon CodeWhisperer

在CentOS上搭建NFS服务器

麦兜

集成开发环境(IDE)的用途?

小魏写代码

finally中的代码一定会执行吗?

王磊

Java 面试题

你的JoinHint为什么不生效

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

Shopee解析商品详情SKU方法丨ShopeeAPI接口封装指南

tbapi

Shopee 虾皮商品详情接口 shopee商品数据接口 shopee商品详情数据接口 shopee API

未来LED全彩显示屏的发展趋势研究

Dylan

屏幕亮度 LED LED显示屏 户外LED显示屏

什么是 DDoS ?如何识别和应对DDOS攻击

德迅云安全杨德俊

Web 安全 DDoS

Word LTSC 2021中文激活版+许可密钥

mac大玩家j

word office办公软件 Mac软件 Word 2021 许可证

《实现领域驱动设计》笔记——架构

EquatorCoco

架构 DDD 技术架构

5个免费、跨平台的SQLite数据库可视化工具

不在线第一只蜗牛

sqlite sql 开源 数据可视化

基于机器学习的自动化网络流量分析_语言 & 开发_王萌 绿盟科技天枢实验室_InfoQ精选文章