linwhitehat/ET-BERT

result different

Closed this issue · 29 comments

我们用你的预训练模型和词典,根据你的代码,我们做的ISCX-VPN-App微调数据预处理,然后微调模型,flow的结果和你的相差了7个点,packet级别和你差了3个点,你觉得可能是哪里的问题?我们上个月下载的你的代码

我们用你的预训练模型和词典,根据你的代码,我们做的ISCX-VPN-App微调数据预处理,然后微调模型,flow的结果和你的相差了7个点,packet级别和你差了3个点,你觉得可能是哪里的问题?我们上个月下载的你的代码

建议可以和我公开处理好的数据做对比看看,同时在其他几个数据集中也对比一下实验结果是否有同样的问题出现。

你好。感谢回复。你们公开的处理好的数据集没有问题,和你们论文结果一致。我想问一下,flow和packet处理的时候都只使用了payload这一个特征吧,flow不需要使用length、time等特征吗?

你好。感谢回复。你们公开的处理好的数据集没有问题,和你们论文结果一致。我想问一下,flow和packet处理的时候都只使用了payload这一个特征吧,flow不需要使用length、time等特征吗?

本身是为了统一化方便进行对照所以没有考虑你说的length等特征,如果你有进一步探索的进展欢迎讨论和交流。

我们这边针对ISCX-VPN-App划分并提取特征后有两个类别数据量和你们有点差异,你们的AIM和ICQ类别数据量相对很少,我这边没有出现这种情况,你们是这么划分类别的吗?
1
2

我们这边针对ISCX-VPN-App划分并提取特征后有两个类别数据量和你们有点差异,你们的AIM和ICQ类别数据量相对很少,我这边没有出现这种情况,你们是这么划分类别的吗? 1 2

不是,我是根据ISCX的说明文件中列出的部分作为每一类样本,同时vpn和non-vpn不混合

我们这边针对ISCX-VPN-App划分并提取特征后有两个类别数据量和你们有点差异,你们的AIM和ICQ类别数据量相对很少,我这边没有出现这种情况,你们是这么划分类别的吗? 1 2

不是,我是根据ISCX的说明文件中列出的部分作为每一类样本,同时vpn和non-vpn不混合

不好意思,我没明白您的意思,官网我也没找到具体信息,您方便给我们一份原始pcap文件名和类别的对应表吗?

我们这边针对ISCX-VPN-App划分并提取特征后有两个类别数据量和你们有点差异,你们的AIM和ICQ类别数据量相对很少,我这边没有出现这种情况,你们是这么划分类别的吗? 1 2

不是,我是根据ISCX的说明文件中列出的部分作为每一类样本,同时vpn和non-vpn不混合

不好意思,我没明白您的意思,官网我也没找到具体信息,您方便给我们一份原始pcap文件名和类别的对应表吗?

image

不好意思,您上面给的这个表是按service划分的吧,我们在做的是按app划分类别,这个您方便提供一下吗

不好意思,您上面给的这个表是按service划分的吧,我们在做的是按app划分类别,这个您方便提供一下吗

我的意思是按照官方给的文件名做的划分,然后拆分service为app细类,不混和vpn和npnvpn

不好意思,您上面给的这个表是按service划分的吧,我们在做的是按app划分类别,这个您方便提供一下吗

我的意思是按照官方给的文件名做的划分,然后拆分service为app细类,不混和vpn和npnvpn

根据你说的,我这么划分的,您看对不对
0909novpn
只使用了vpn数据

不好意思,您上面给的这个表是按service划分的吧,我们在做的是按app划分类别,这个您方便提供一下吗

我的意思是按照官方给的文件名做的划分,然后拆分service为app细类,不混和vpn和npnvpn

根据你说的,我这么划分的,您看对不对 0909novpn 只使用了vpn数据

这是我这边划分的17类明细,你可以对照看看。
├─AIM
│ ├─AIMchat1
│ ├─AIMchat2
│ ├─aim_chat_3a
│ └─aim_chat_3b
├─email-client
│ ├─email1a
│ ├─email1b
│ ├─email2a
│ └─email2b
├─facebook
│ ├─facebookchat1-1
│ ├─facebookchat2-1
│ ├─facebookchat3-1
│ ├─facebook_chat_4a-1
│ └─facebook_chat_4b
├─gmail
│ ├─gmailchat1
│ ├─gmailchat2
│ └─gmailchat3
├─hangout
│ ├─hangouts_audio1a
│ ├─hangouts_audio1b
│ ├─hangouts_audio2a
│ ├─hangouts_audio2b
│ ├─hangouts_audio3
│ ├─hangouts_audio4
│ ├─hangouts_chat_4a-1
│ └─hangout_chat_4b-1
├─ICQ
│ ├─ICQchat1-1
│ ├─ICQchat2
│ ├─icq_chat_3a-1
│ └─icq_chat_3b-1
├─Netflix
│ ├─netflix1
│ ├─netflix2
│ ├─netflix3
│ └─netflix4
├─scp
│ ├─scp1
│ ├─scpDown1
│ ├─scpDown2
│ ├─scpDown3
│ ├─scpDown4
│ ├─scpDown5
│ ├─scpDown6
│ ├─scpUp1
│ ├─scpUp2
│ ├─scpUp3
│ ├─scpUp5
│ └─scpUp6
├─skype
│ ├─skype_chat1a-1
│ ├─skype_chat1b-1
│ ├─skype_file1
│ ├─skype_file2
│ ├─skype_file3
│ ├─skype_file4
│ ├─skype_file5
│ ├─skype_file6
│ ├─skype_file7
│ └─skype_file8
├─spotify
│ ├─spotify1
│ ├─spotify2
│ ├─spotify3
│ └─spotify4
├─Tor
│ ├─torFacebook
│ ├─torGoogle
│ ├─torTwitter
│ ├─torVimeo1
│ ├─torVimeo2
│ ├─torVimeo3
│ ├─torYoutube1
│ ├─torYoutube2
│ └─torYoutube3
├─Torrent
│ └─Torrent01
├─vimeo
│ ├─vimeo1
│ ├─vimeo2
│ ├─vimeo3
│ └─vimeo4
├─voipbuster
│ ├─voipbuster1b
│ ├─voipbuster2b
│ ├─voipbuster3b
│ ├─voipbuster_4a
│ └─voipbuster_4b
├─vpn-ftps
│ ├─vpn_ftps_A
│ └─vpn_ftps_B
├─vpn-sftp
│ ├─vpn_sftp_A
│ └─vpn_sftp_B
└─YouTube
├─youtube1
├─youtube2
├─youtube3
├─youtube4
├─youtube5
├─youtube6
└─youtubeHTML5_1

收到。万分感谢。数据里面的Tor
│ ├─torFacebook
│ ├─torGoogle
│ ├─torTwitter
│ ├─torVimeo1
│ ├─torVimeo2
│ ├─torVimeo3
│ ├─torYoutube1
│ ├─torYoutube2
│ └─torYoutube3
├─Torrent
│ └─Torrent01
这几个数据是怎么来的?我没有在数据集里面看到对应的名字

收到。万分感谢。数据里面的Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这几个数据是怎么来的?我没有在数据集里面看到对应的名字

Tor数据集为作者提供的隧道类的数据应用,作者在数据集中包含了但是不属于service类别,因此作为app类别使用。

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

大佬早,谢谢回复,我下了ISCX-VPN数据集里面没有发现文件名标注的tor数据。大佬能提供tor类别这几个pcap文件的下载链接吗?

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

大佬早,谢谢回复,我下了ISCX-VPN数据集里面没有发现文件名标注的tor数据。大佬能提供tor类别这几个pcap文件的下载链接吗?

下载链接就是你发的ISCX官方的地址,我刚才查看了,作者去年更新了公开的pcaps,最初作者公开的数据集为ISCX-vpn-nonvpn-2016-completePCAPs,其中有包括Tor标签的应用。在作者更新数据集之前获取到该ISCX-VPN数据集的研究工作有提及,例如DeepPacket

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

大佬早,谢谢回复,我下了ISCX-VPN数据集里面没有发现文件名标注的tor数据。大佬能提供tor类别这几个pcap文件的下载链接吗?

下载链接就是你发的ISCX官方的地址,我刚才查看了,作者去年更新了公开的pcaps,最初作者公开的数据集为ISCX-vpn-nonvpn-2016-completePCAPs,其中有包括Tor标签的应用。在作者更新数据集之前获取到该ISCX-VPN数据集的研究工作有提及,例如DeepPacket

大佬早,目前您说的这个ISCX-vpn-nonvpn-2016-completePCAPs这个上一版数据集已经找不到资源了。对比了您发的类别-文件映射表,我这里缺以下11个pcaps:Torrent01、vpn_chat、torFacebook、torGoogle、torTwitter、torVimeo1、torVimeo2、torVimeo3、torYoutube1、torYoutube2、torYoutube3。大佬是否方便提供这几个文件的下载链接。

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

大佬早,谢谢回复,我下了ISCX-VPN数据集里面没有发现文件名标注的tor数据。大佬能提供tor类别这几个pcap文件的下载链接吗?

下载链接就是你发的ISCX官方的地址,我刚才查看了,作者去年更新了公开的pcaps,最初作者公开的数据集为ISCX-vpn-nonvpn-2016-completePCAPs,其中有包括Tor标签的应用。在作者更新数据集之前获取到该ISCX-VPN数据集的研究工作有提及,例如DeepPacket

大佬早,目前您说的这个ISCX-vpn-nonvpn-2016-completePCAPs这个上一版数据集已经找不到资源了。对比了您发的类别-文件映射表,我这里缺以下11个pcaps:Torrent01、vpn_chat、torFacebook、torGoogle、torTwitter、torVimeo1、torVimeo2、torVimeo3、torYoutube1、torYoutube2、torYoutube3。大佬是否方便提供这几个文件的下载链接。

可以的,后续会打包上传。

你好。感谢回复。你们公开的处理好的数据集没有问题,和你们论文结果一致。我想问一下,flow和packet处理的时候都只使用了payload这一个特征吧,flow不需要使用length、time等特征吗?

您好 ,我也遇到了和您相同的问题,我的结果也不一样。
我想请教您如何使用作者提供ISC-VPN数据集,我看到压缩包里是npy文件,如果使用npy文件生成微调所用tsv文件呢?

你好。感谢回复。你们公开的处理好的数据集没有问题,和你们论文结果一致。我想问一下,flow和packet处理的时候都只使用了payload这一个特征吧,flow不需要使用length、time等特征吗?

您好 ,我也遇到了和您相同的问题,我的结果也不一样。 我想请教您如何使用作者提供ISC-VPN数据集,我看到压缩包里是npy文件,如果使用npy文件生成微调所用tsv文件呢?

在data_process的main文件中有处理代码,详情可以看一下代码

收到。万分感谢。 数据里面的 Tor │ ├─torFacebook │ ├─torGoogle │ ├─torTwitter │ ├─torVimeo1 │ ├─torVimeo2 │ ├─torVimeo3 │ ├─torYoutube1 │ ├─torYoutube2 │ └─torYoutube3 ├─Torrent │ └─Torrent01 这数据是怎么来的?我没有在数据集里面看到的名字

Tor 数据集作者为提供隧道类的数据应用,作者在数据集中包含但不属于服务类别,因此作为应用类别使用。

@linwhitehat 大佬你好,我也遇到题主相应的问题。想请问上述的tor这几个数据是来自哪个数据集,是论文里提到的CSTNET-TLS 1.3数据集吗,这个数据集在README.md/Datasets处的链接已失效了。盼复,感谢!

Tor这个应用类别数据也是来自ISCX-VPN,不是来自CSTNET-TLS 1.3。发布ISCX-VPN数据集的作者公开的readme中只列出了service级别的数据包,而在后面的研究中有作者将Tor单独补充作为了app类别,因此我就沿用了。

大佬早,谢谢回复,我下了ISCX-VPN数据集里面没有发现文件名标注的tor数据。大佬能提供tor类别这几个pcap文件的下载链接吗?

下载链接就是你发的ISCX官方的地址,我刚才查看了,作者去年更新了公开的pcaps,最初作者公开的数据集为ISCX-vpn-nonvpn-2016-completePCAPs,其中有包括Tor标签的应用。在作者更新数据集之前获取到该ISCX-VPN数据集的研究工作有提及,例如DeepPacket

大佬早,目前您说的这个ISCX-vpn-nonvpn-2016-completePCAPs这个上一版数据集已经找不到资源了。对比了您发的类别-文件映射表,我这里缺以下11个pcaps:Torrent01、vpn_chat、torFacebook、torGoogle、torTwitter、torVimeo1、torVimeo2、torVimeo3、torYoutube1、torYoutube2、torYoutube3。大佬是否方便提供这几个文件的下载链接。

可以的,后续会打包上传。

作者您好,这几个文件链接可否提供一下,十分感谢

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

感谢您的分享,不过我还想请教一下关于ISCX-Tor数据集,您在分类时16类的pcap文件划分明细是怎么的呢?

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

感谢您的分享,不过我还想请教一下关于ISCX-Tor数据集,您在分类时16类的pcap文件划分明细是怎么的呢?

可以查看官网数据集说明,参照官方说明使用的数据集

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

谢谢大佬的分享!!我这边对照了大佬上面提供的service分类任务数据列表中,目前还缺少vpn-chat类别中的vpn_chat.pcap文件。

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

谢谢大佬的分享!!我这边对照了大佬上面提供的service分类任务数据列表中,目前还缺少vpn-chat类别中的vpn_chat.pcap文件。

service类别中的vpn-chat是数据集开源作者提供的类别,根据其描述处理即可。

@Apollo0801 @Pau1code 最近一段时间较忙,这是目前作者公开的数据集中缺失的部分,已共享。https://drive.google.com/file/d/1MwVrfU9-1ZlToDL2pX7cPp01Gn-yqCxb/view?usp=sharing

谢谢大佬的分享!!我这边对照了大佬上面提供的service分类任务数据列表中,目前还缺少vpn-chat类别中的vpn_chat.pcap文件。

service类别中的vpn-chat是数据集开源作者提供的类别,根据其描述处理即可。

收到,谢谢大佬!!!

现在官网的数据集发生了变化,可以上传以下原先的 CompletePCAPs.zip 文件吗