MinorJerry/WebVoyager

期待您的作品!

Closed this issue · 1 comments

这个是干嘛的?

感谢关注!
主要是构建的multimodal的 web agents,利用LMM的多模态的能力来进行web navigation。大致流程也容易理解,是End-to-End的,用户提出一个task query,agent在线和网页一步一步交互,最后寻到信息或者完成操作,并返回给用户。Paper里有写为什么要multimodal,主要是为了更好地利用浏览器的rendering能力,以前的work大多是text-only的。
我们用selenium搭建了一个在线浏览的环境,直接和internet交互。然后我们用半自动化的方式构建了一些web tasks,这也便于之后的扩展。
另外尝试解决的一个问题是evaluation,这些web tasks一般都是开放性的问题,比较难以评估,我们保存了agent每一步和web交互的截图,人去看的话,可能也要1分多钟来评估一个task,这个会非常繁琐。所以我们还尝试采用GPT-4V powered的Auto Evaluation。实际上,之后我们之后的version可能数据的规模可能会更大,因此我们期望也可以用自动评估这些方式来节省人力。