超出上下文限制的情况如何处理
Closed this issue · 3 comments
steph730 commented
您好,请问一下在对生产数据的应用中,如果一个数据库中含较多数据表,每个表所包含字段较多,拼接成prompt后输入长度超出上下文限制,有什么解决方案呢
lihaoyang-ruc commented
在CodeS中,我们额外引入了一个分类器(schema item classifier),它根据自然语言问题来对表和列进行打分,最后只保留与问题最相关的一部分表和列拼接成prompt输入到模型中。
lwmlyy commented
在CodeS中,我们额外引入了一个分类器(schema item classifier),它根据自然语言问题来对表和列进行打分,最后只保留与问题最相关的一部分表和列拼接成prompt输入到模型中。
请问下,这个策略是默认使用的吗?md中所有codes模型的分数都是使用了这个策略?有没有实验可以对比一下这套策略在效果上提升有多少,似乎是一个很好的消融实验。
另外,这个分类模型使用的基座是什么?参数量大小可以透露吗?模型ckpt下载太慢了。
lihaoyang-ruc commented
是的,这个策略是默认使用的。分类器的有效性在之前的工作中就已经得到过证明,请参阅RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL。
分类模型的基座是RoBERTa-Large,我记得应该是355M参数量。