linwhitehat/ET-BERT

有关数据清洗和数据预处理的问题

Closed this issue · 1 comments

image
作者大大您好,我正在试图从零开始复现您的工作,采用的数据集是您论文中提到的ISCX-Tor-2016的数据集,pacp总大小为21G,按照您写的md里的操作说明,我只对存放的相关路径进行了修改,并且运行了datase_generation.py进行pcap的分割和获取burst信息,如上图所示,该程序目前已经连续运行9小时,目前一直在get_burst_feature(),请问这样的处理速度是正常的吗?谢谢

image
b补充说明,我看卡住的文件大小为2.26G,用wireshark打开确实均为两个ip之间的通讯,卡住的部分是作者大大调用的flowcontainer里的extract()函数,extract()函数调用的reader部分,请问作者大大是如何处理这种情况的呢?在您论文里的这个数据集预处理是否和我的结果一致呢?恳请作者大大指点迷津,非常感谢