aiXcoder-7B-base跟aiXcoder-7B有什么区别
Closed this issue · 4 comments
luhairong11 commented
HoratioJSY commented
在 readme 图表下的图注有描述,aiXcoder-7B 是在十万条evol-instruct数据上训练一个epoch的结果
Owen-Qin commented
在 readme 图表下的图注有描述,aiXcoder-7B 是在十万条evol-instruct数据上训练一个epoch的结果
请问aiXcoder-7B在微调时是否使用了FIM数据?FIM数据和evol-instruct数据占比大概是多少?
aiXcoder-7B可以支持IDE中的代码补齐吗?谢谢! @HoratioJSY
HoratioJSY commented
aiXcoder-7B在微调时整个都是FIM数据,只是有的代码文件是 stand along 的单方法,整体训练量正常的代码文件和stand along 的单方法代码文件的比例大概是 100:1。aiXcoder-7B 在我们的 FIM Benchmark 评测中相比aiXcoder-7B-Base没有降低,能支持IDE中的代码补全。
Grey4sh commented
aiXcoder-7B在微调时整个都是FIM数据,只是有的代码文件是 stand along 的单方法,整体训练量正常的代码文件和stand along 的单方法代码文件的比例大概是 100:1。aiXcoder-7B 在我们的 FIM Benchmark 评测中相比aiXcoder-7B-Base没有降低,能支持IDE中的代码补全。
FIM数据在微调时该如何处理呢? 假设一条完整的fim数据为:
<fim_prefix>{PREFIX}<fim_suffix>{SUFFIX}<fim_middle>{MIDDLE}eos
处理成有监督学习数据集时是类似下面这样吗?
{
"instruction": "<fim_prefix>{PREFIX}<fim_suffix>{SUFFIX}<fim_middle>",
"output": "{MIDDLE}"
}