thunlp/StyleAttack

作者你好,请问论文中关于对抗攻击部分的成功率(ASR)是如何计算的呢

89x98 opened this issue · 2 comments

89x98 commented

我运行了你们上传的attack.py代码,并从提供的谷歌网盘/models/cds_models的路径下,分别下载了bible、lyrics、poetry、shakespeare、tweet这个五个预训练模型,对bert模型分类sst2数据集进行攻击,之后使用代码中提供的mis去除以total,五种风格独立计算出的攻击成功率最高也只有50%多点,低的只有20%。请问论文中90%+的成功率是如何计算的呢,是把五种转述风格同时作为对抗样本进行攻击计算成功率吗

你好,感谢你对我们工作的关注! 论文中的成功率是把五种转述风格同时作为对抗样本进行攻击计算成功率,我们设置了一个max_query times,限制对受害模型的最多访问次数,用每种风格迁移模型 对原句子进行转换,每种风格生成十个潜在对抗样本,一共有50个潜在对抗样本,其中若一个模型判断错误,则认为攻击成功。

89x98 commented

好的,感谢说明