PKU-YuanGroup/ProLLaMA

关于实验评价指标的疑问

horacehht opened this issue · 2 comments

阅读完论文后,我对实验评价指标有一些疑问。
1、无条件蛋白生成章节中,ProLLaMA只生成了蛋白序列,pLDDT和SC-Perp指标是如何获得的?是通过将生成的序列输入到AF2中获得的吗?
2、无条件蛋白生成章节中,ESM-1b据我所知是一个蛋白质语言模型(PLM),专门用来给序列生成embedding。你们实验中是如何让它生成序列的呢?接了一个结构预测模块吗?
Related Work中这样写
AE PLMs adopt the encoder-only architecture and Masked Language Modeling (MLM) [20–24]. They excel in PLU, with the learned protein representations being applied to downstream predictive tasks [29]. However, they face challenges in de novo protein generation.

  1. 是的,使用了Omegafold进行蛋白质折叠,从而获得pLDDT。SC-Perp还需要使用ProteinMPNN模型。这部分详见论文附录A.5.1。
  2. 没有额外的模块,单纯使用ESM-1b。方法是吉布斯采样,从而可以让ESM做生成任务。代码见microsoft/evodiff#29

Best wishes

@Lyu6PosHao 谢谢解答!