默认对代码的embedding模型是什么呢?
JudeZzz1997 opened this issue · 5 comments
JudeZzz1997 commented
一般的文本embedding模型在代码数据上效果极差,导致使用自然语言搜索编程语言(code search任务)效果很差,请问你们是如何解决这个问题的?
bingxuchai commented
我们是内部通过大模型产出代码的自然语言解读,避免了直接针对代码做embedding,检索的时候也是去匹配问题和自然语言解读来获取到代码原文的
JudeZzz1997 commented
我们是内部通过大模型产出代码的自然语言解读,避免了直接针对代码做embedding,检索的时候也是去匹配问题和自然语言解读来获取到代码原文的
再请问一下,对于较长的代码文件,分割方面有什么trick嘛
bingxuchai commented
可以考虑通过程序分析的手段来按照类,方法层面来分割,如果遇到某个方法本身就非常长的话,可以看看能不能让大模型来帮助将长方法分隔成负责不同功能的代码块了
lightislost commented
暂时先关闭 issue,后面还有问题可重新打开