超出上下文限制的情况如何处理

Question

Closed this issue 8 months ago · 3 comments

您好，请问一下在对生产数据的应用中，如果一个数据库中含较多数据表，每个表所包含字段较多，拼接成prompt后输入长度超出上下文限制，有什么解决方案呢

Answer 1 · 2023-09-13T15:36:53.000Z

在CodeS中，我们额外引入了一个分类器（schema item classifier），它根据自然语言问题来对表和列进行打分，最后只保留与问题最相关的一部分表和列拼接成prompt输入到模型中。

Answer 2 · 2023-09-14T01:53:02.000Z

在CodeS中，我们额外引入了一个分类器（schema item classifier），它根据自然语言问题来对表和列进行打分，最后只保留与问题最相关的一部分表和列拼接成prompt输入到模型中。

请问下，这个策略是默认使用的吗？md中所有codes模型的分数都是使用了这个策略？有没有实验可以对比一下这套策略在效果上提升有多少，似乎是一个很好的消融实验。

另外，这个分类模型使用的基座是什么？参数量大小可以透露吗？模型ckpt下载太慢了。

Answer 3 · 2023-09-14T02:11:35.000Z

是的，这个策略是默认使用的。分类器的有效性在之前的工作中就已经得到过证明，请参阅RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL。

分类模型的基座是RoBERTa-Large，我记得应该是355M参数量。