人工智能安全实验一入侵检测

实验一项目名称：入侵检测

一、实验目的

对数据集进行数据处理，使用信息增益方法来选取特征，产生训练集和测试集，并对数据进行归一化，构建模型，并对模型进行训练，得到函数的系数。构建分类器，最大化分类正确率，用准确率(Accuracy)，精确率(Precision)和召回率(Recall)与F1 score来衡量分类器性能，完成入侵流量检测分类任务，区分正常访问/非正常访问的网络包记录。

二、实验设备（环境）

Python3.7

三、实验内容与步骤

检测源代码，调试输出F1 score

首先将网站的二分类代码复制到编译器中，把程序所需要的第三方库下载好。包括如下图 1-1、1-2 所示。其中的 sklearn 直接下载是会报错的，需要下载 scikit-learn。

还需将标准数据集放入和代码相同的目录下。然后输出实验结果F1 score即可，如图1-3所示。

把信息增益程序作为特征选择模块，再次调试程序，输出F1 score

首先将如图2-1所示代码替换为信息增益程序，让信息增益程序作为特征选择模块。

信息增益需要把X_train替换为train_data，X_test替换为test_data，传原始数据才能计算增益。

对41个增益进行排序，使用np.argsort排序函数对信息增益进行降序排序，得到对应索引，选取K个信息增益最大的特征。

选取K为2，输出的第4个特征的增益是最大的，其次是第2个特征的增益。

产生训练集和测试集：

一开始遇到了如图所示的错误，输入的特征变量和目标变量的样本数量不一致，发现是在处理信息增益时，x_test = pd.DataFrame(test_data, columns=x)这句代码中的test_data写成了train_data。

进行归一化：

归一化的作用是，不同数据或不同的评价指标的范围会有所不同，这种情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行归一化，将需要处理的数据通过某种算法限制在需要的一定范围之内。

最后将x_train, x_test的值返回到主函数中：

将主函数中原先的特征选取部分进行修改，留下y_train和y_test，其余屏蔽掉。

主函数中对Feature_select函数的调用：

建立模型并训练模型，输出F1 score：

（三）同时输出准确率(Accuracy)，精确率(Precision)，召回率(Recall)与F1 score

先将所需要的库加载好：

建立模型并训练模型，训练二次函数的系数，准确率(Accuracy)，精确率(Precision)，召回率(Recall)的相应函数的参数要准确。

四、实验结果与数据处理

任务一实验结果：

任务二实验结果：

K为5

K为20

选取的K值不同时，所得到的F1 score也不同。

任务三实验结果：

K为2

读取数据，放进tran_data和test_data里，删除有缺失值的行。

五、实验分析与总结

本次实验主要任务就是对数据进行处理。流程为：对数据集进行数据处理，使用信息增益方法来选取特征，产生训练集和测试集，并对数据进行归一化，构建模型，并对模型进行训练，得到函数的系数。构建分类器，最大化分类正确率，用准确率(Accuracy)，精确率(Precision)和召回率(Recall)与F1 score来衡量分类器性能，完成入侵流量检测分类任务，区分正常访问/非正常访问的网络包记录。

遇到的一些问题有：第三方库的下载，获取信息增益的索引，降序排序，将K值传入函数中，对三个分类指标函数的使用。

由于没有接触过机器学习相关的知识，一开始会很难理解其中的原理，但是听了几遍老师的讲解之后，明白了一些，信息增益只是特征选取的一种方法，本身没有对数据进行处理，不同的特征选取方法，所用的数据是不同的，比如信息增益是要用原始数据。而对数据进行归一化是因为不同数据的范围不同，为了得到最重要的评价指标，所以要归一化，限制数据在一定范围内。

人工智能安全实验一入侵检测

最新关注

热文推荐

前端react入门day04-useEffect与Hook函数

字节跳动（抖音）软件测试月薪23K岗、技术总监三面面试题最新出炉

python pyqt5 如何点击按钮，打开文件夹选择目录

vue2移动端使用vue-qrcode-reader实现扫一扫功能

ChatGPT拒绝做这5件事，还有20件它也不会做！

基于Java+SpringBoot+Vue前后端分离仓库管理系统设计实现

人工智能安全实验一 入侵检测

相关文章

最新关注

热文推荐

人工智能安全实验一入侵检测