学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 毕业论文 > 在职硕士论文 > 工程硕士论文 > 软件工程硕士论文

基于darknet数据集机器学习算法测试比较

来源:学术堂 作者:姚老师
发布于:2017-02-24 共2716字

  4.7 实验过程及分析。

  此章节分别采用了 kddcup1999 和 Darknet 数据集分别进行实验。

  在这个章节我们的目标是设计一个机器学习模型来发现是否我们可解决网络入侵检测系统在检测攻击时的缺陷。我们旨在以找出是否有可能通过采用一个较少的数据集,而且无需使用任何 ip 地址和端口号作为特征,以实现高检出率。

  4.7.1 实验一 基于 darknet 数据集机器学习算法测试比较。

  朴素贝叶斯和决策树模型:表 4.8 提出了基于不同数据集(darknet 数据集)和特征值训练数据机器学习评估的模型。正如你在表 4.8 清楚的看到,我们取得了 99%的准确率 100%的召回和通过决策树学习技术的 20%的训练,80%的测试数据集 99%的特异性。需要注意的是决策树模型的整体检测率,准确率,检出率和 F 评分结果比朴素贝叶斯在每个案例中都高,这表明决策树分类似乎在检测后向散射攻击检测中有更好的表现,此外,构建训练数据集的纪录 20%,保持在测试数据集中剩余还提供了比较高的精度和和低级 FPR,FNR 比率相一致的预测。它也表明,它不要求有一个大的数据集来训练监督分类,因为当数据的少量创建模型的监督分类器的成果检出率较高。这也说明,这种模式具有更好的推展能力。

  此外,为了观察是否 ML 分类的时效性令人满意,我们通过使用 32g 内存酷睿 i5 英特尔3.10 GHz 的 CPU 和 Ubuntu14.04 操作系统来测量他们的计算时间。很显然,即使它更快的构建朴素贝叶斯分类器,测试时间大约比决策树大百倍。此外,使用不同的特征集影响分类器测试结果,这表明选择特征值的信息量大小是设计监督学习分类器的一个很大的问题。还需要注意的是是否知道源或者目的ip地址以及端口号对检测后向散射流量的准确性是否一定必要的。

  综上所述,提出的决策树分类器达到了 99%的准确率和 100%的检出率,在使用特征集合 2 的情况下达到了 96%.相比与大多数在文件中的系统,没有使用 ip 地址和端口号探测后向散射攻击很有研究意义。此外,是在仅单向流量通行获得如此出色的表现,尤其是 bro 在分析了两个小时数据集后才探测出 13%的恶意流量。

  表 6 显示了使用不同大小的训练和测试数据集的决策树中的关键特征值。这还指定了分裂点的数目为树的深度。特征值"协议,ack,rst".

  据观察,当使用特征值集合 1 时,改变训练集从 80%到 20%影响了第五个重要的特征,它从数据包长度变为 TTL.然而,在使用第二组数据集时训练集的大小不能导致顶层特征值的不同。当我们使用较少的数据集,分裂点从 5 个增加到了 17 个。

  4.7.2 实验二 使用机器学习算法对 kdd99 数据集分类。

  我们实验所选取的平台为 spark,版本为 1.4.1,所选取的数据集为 kddcup99 的 10%子集。

  (1) 对数据进行预处理。

  我们首先对 kddcup1999 数据集进行预处理,因为数据集较大,因此我们只选择 KDD10%的数据集进行实验,预处理所采用的方法为 ReSampling.

  (2) 实验方法。

  我们将实验数据集平均分为 10 份,10 份当中的样本重叠,试验中我们取 8 份作为训练集,2 份作为测试集,我们对数据集进行 10 次分类,对分类测试取得的结果取平均值。

  (3) 朴素贝耶斯模型验证实验。

  该实验是朴素贝叶斯算法在 spark 上进行验证实验,我们对 kdd99 的 10%数据进行了分类预测,结果如表4.10和4.11所示,表格4.10是显示的kdd99其中10%的Dos攻击总共488735个样本分类结果。从表格中我们可以看出朴素贝叶斯算法对于 kdd99 数据分类效果很好,对于 land,teardrop 以及 pod 分类几乎无差错。但是由于这几种攻击数据的样本规模比较小,所以不能太说明问题,但在样本数量很多的比如 neptune,smurf 以及正常访问 normal 的分类中,模型表现依旧很好。

  模型的性能指标由表格 4.11 所示,从表格中我们可以看出朴素贝叶斯模型对于 kdd99 的10%数据集分类进度很高,检出率高达 98%,准确率高达 99%,F-Score 高达 0.994.8 本章小结。

  本章主要阐述了决策树和朴素贝叶斯算法基本原理与算法在 spark 框架上的实现,分别采用了 darknet 和 kdd99 数据集进行实验,使用了机器学习算法和传统的入侵检测系统对数据集进行探测,将两种技术检测的效率进行对比分析。

  4.9 总结和展望未来工作。

  在本文中,我们的目标是分析检测后向散射的优势和缺点和两个开源入侵检测系统的缺点都明显以及两个 ML 分类。为了实现这一目标,我们采用两个著名 NIDSs,即临 broV2.2和 CORSARO.在另一方面,我们采用两个著名的 ML 分类,即 CART 决策树和朴素贝叶斯,通过使用spark我们衡量他们的表现在攻击检测率和计算时间的表现。我们通过所有的从2008年 11 月一个暗网络数据集(包括后向散射)来评估。为使用 ML 分类,我们采用两个 80%和完整的数据集作为训练的 20%.这样一来,我们的目的是要了解的不同训练集大小如何影响我们的 ML 分类的质量。其结果是,我们实现通过使用整个数据集作为训练集的 20%99%的检出率。另一方面,bro 和 CORSARO 既无需训练。

  此外,我们指定了两个不同的功能集来理解如何选择不同的数据集怎么影响我们的分类表现。通过提出的第二特征集,还旨在研究它是否能够不使用端口号和 IP 地址反向检测散射攻击。另一方面,bro 和 CORSARO 都有他们使用来分析流量自己预先定义的特征。据我们所知,这是第一次采用反向散射流量来评估这样的系统的。研究结果显示:

  CORSARO 比 bro 具有较低的处理时间更高的检测精度。

  决策树分类器的性能在检测精度和处理时间方面的比朴素贝叶斯分类更高。决策树分类器的处理时间比朴素贝叶斯减少约一百倍。

  "protocol,ack,rst"这些特征值是我们决策树最重要的特征值当我们使用因为统计结果特别高,所以结果展示不使用 ip 地址和端口号来探测反向散射是可行的。

  决策树的训练集使用 20%结果展示性能很高,但是决策树的复杂度也从 5 变成了 17.但是我们并不认为这是不利的因为 17 对专家而言还是很容易分析的。

  表七展示了机器学习分类器与网络入侵检测系统的对比。需要注意的是机器学习分类器使用了特征值 2 中的 20%数据作为训练值。根据我们观察,我们的方法在探测后向散射数据集有很高的精度,然后我们的做法和 corsaro 的结果非常接近。请注意 corsaro 是设计的实时系统,它具有最合理的处理时间。我们的方法通过智能计算设计的,这意味着它能根据已使用的训练机学习新的攻击特征。另一方面,corsaro 使用预先定义的特征来探测 ddos 攻击;因此,它的特征必须被重新定义来探测 ddos 攻击。为了此目的,我们的结论是介于所述决策树分类用来补充 corsaro 分析系统,以适应新的恶意行为。

  至于今后的工作中,我们将采用更大和更新的暗网络数据集探索其他节点和 ML 分类的性能。我们也将研究的复合功能,可能会增加 ML 分类器的性能的动态调整。最后但并非最不重要,我们将探讨这些类型的数据集的分类系统的通用性和稳健性的能力。

相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站