linwhitehat/ET-BERT

数据清洗的问题

Closed this issue · 4 comments

您好,作者大大请问下预训练和下游任务微调,模型评估的数据,是不是都经过/ET-BERT/data_process/open_dataset_deal.py下的clean_pcap处理过了吗,另外关于过滤要求中的frame.len>80,可以细说下,为啥要过滤pcap长度没有80个字节的pcap包,这是有什么讲究吗?

您好,作者大大请问下预训练和下游任务微调,模型评估的数据,是不是都经过/ET-BERT/data_process/open_dataset_deal.py下的clean_pcap处理过了吗,另外关于过滤要求中的frame.len>80,可以细说下,为啥要过滤pcap长度没有80个字节的pcap包,这是有什么讲究吗?

基本上是的,clean_pcap是希望去除流量中的一些“无用”协议数据,主要是针对一些公开数据集。不足80个字节的单包可能是一些状态包或者非实际通信包,去除的本意是增大可选样本的信息量。

请问下对于Flow Level,那为什么要对每个packet只截取前128个字节呢,为啥不选取packet的所有信息,作者大大有做过相应的对比吗

请问下对于Flow Level,那为什么要对每个packet只截取前128个字节呢,为啥不选取packet的所有信息,作者大大有做过相应的对比吗

在论文外做过纳入packet更多负载的情况,对目标识别没有更大的帮助。

好的谢谢作者大大了