aixcoder-plugin/aiXcoder-7B

aiXcoder-7B-base跟aiXcoder-7B有什么区别

Closed this issue · 4 comments

image
看测试结果,aiXcoder-7B的准确率更高

在 readme 图表下的图注有描述,aiXcoder-7B 是在十万条evol-instruct数据上训练一个epoch的结果

在 readme 图表下的图注有描述,aiXcoder-7B 是在十万条evol-instruct数据上训练一个epoch的结果

请问aiXcoder-7B在微调时是否使用了FIM数据?FIM数据和evol-instruct数据占比大概是多少?
aiXcoder-7B可以支持IDE中的代码补齐吗?谢谢! @HoratioJSY

aiXcoder-7B在微调时整个都是FIM数据,只是有的代码文件是 stand along 的单方法,整体训练量正常的代码文件和stand along 的单方法代码文件的比例大概是 100:1。aiXcoder-7B 在我们的 FIM Benchmark 评测中相比aiXcoder-7B-Base没有降低,能支持IDE中的代码补全。

aiXcoder-7B在微调时整个都是FIM数据,只是有的代码文件是 stand along 的单方法,整体训练量正常的代码文件和stand along 的单方法代码文件的比例大概是 100:1。aiXcoder-7B 在我们的 FIM Benchmark 评测中相比aiXcoder-7B-Base没有降低,能支持IDE中的代码补全。

FIM数据在微调时该如何处理呢? 假设一条完整的fim数据为:
<fim_prefix>{PREFIX}<fim_suffix>{SUFFIX}<fim_middle>{MIDDLE}eos
处理成有监督学习数据集时是类似下面这样吗?

{
   "instruction": "<fim_prefix>{PREFIX}<fim_suffix>{SUFFIX}<fim_middle>",
   "output": "{MIDDLE}"
}