期待您的作品！

Question

期待您的作品！

Closed this issue 9 months ago · 1 comments

这个是干嘛的？

Answer 1 · 2024-01-26T07:55:24.000Z

感谢关注！
主要是构建的multimodal的 web agents，利用LMM的多模态的能力来进行web navigation。大致流程也容易理解，是End-to-End的，用户提出一个task query，agent在线和网页一步一步交互，最后寻到信息或者完成操作，并返回给用户。Paper里有写为什么要multimodal，主要是为了更好地利用浏览器的rendering能力，以前的work大多是text-only的。
我们用selenium搭建了一个在线浏览的环境，直接和internet交互。然后我们用半自动化的方式构建了一些web tasks，这也便于之后的扩展。
另外尝试解决的一个问题是evaluation，这些web tasks一般都是开放性的问题，比较难以评估，我们保存了agent每一步和web交互的截图，人去看的话，可能也要1分多钟来评估一个task，这个会非常繁琐。所以我们还尝试采用GPT-4V powered的Auto Evaluation。实际上，之后我们之后的version可能数据的规模可能会更大，因此我们期望也可以用自动评估这些方式来节省人力。