关于预训练的数据集
Closed this issue · 4 comments
wyx502 commented
请问一下,文中提到预训练数据集共30G,15G来自公开数据集,15来自CSTNET。我在unb的网站上找到了ISCXVPN2016、ISCXTor2016等很多个数据集,可以问一下作者15G公开数据集具体指哪些,或者做了哪些处理吗。另外,15G的CSTNET非公开数据集有办法获取吗,谢谢。
wyx502 commented
linwhitehat commented
1,预训练的数据集中选取是没有什么加入约束的,因此可以使用尽可能丰富的协议流量进行替代。
2,encrypted_traffic_burst.txt是基于预训练数据生成的
wyx502 commented
linwhitehat commented