OptimalScale/LMFlow

what's the difference between text_only and text2text data type?

cauwulixuan opened this issue · 8 comments

你们好,我自己有一份私有大模型,预训练的时候,输入和输出之间的分隔符是"[SEP]",输出终止token是“<eod>”。现在我想借助lmflow进行微调。我注意到,数据格式只能是text_only 和text2text,请问text_only 和text2text 在使用上有什么区别?

我应该如何构造我的数据集,才能使用你们的微调和推理脚本呢?

比如,我的数据格式是:

问:能否帮我写一个python代码判断一个数字是否是偶数?答:is_even = lambda x: x % 2 == 0

感谢关注,text_only适合无标签数据,text2text适合有标签的问答对

针对您提供的例子,可以转换成:

{
  "type": "text2text",
  "instances": [
    {
        "input": "能否帮我写一个python代码判断一个数字是否是偶数?",
        "output": "is_even = lambda x: x % 2 == 0",
    },
  ]
}

具体请参考教程 https://optimalscale.github.io/LMFlow/examples/DATASETS.html

@shizhediao 请问在文本数据方面,是否有对更多数据集字段(如 query,history)等、以及更多文件格式的支持的打算呢

感谢关注,text_only适合无标签数据,text2text适合有标签的问答对

针对您提供的例子,可以转换成:

{
  "type": "text2text",
  "instances": [
    {
        "input": "能否帮我写一个python代码判断一个数字是否是偶数?",
        "output": "is_even = lambda x: x % 2 == 0",
    },
  ]
}

具体请参考教程 https://optimalscale.github.io/LMFlow/examples/DATASETS.html

谢谢。请问官方的微信群还能加入吗?我看readme里的二维码链接失效了。

@shizhediao 请问在文本数据方面,是否有对更多数据集字段(如 query,history)等、以及更多文件格式的支持的打算呢

您好,更多的字段可以通过拼接整合,使用input字段来进行输入,比如现在支持的多轮对话。谢谢

感谢关注,text_only适合无标签数据,text2text适合有标签的问答对
针对您提供的例子,可以转换成:

{
  "type": "text2text",
  "instances": [
    {
        "input": "能否帮我写一个python代码判断一个数字是否是偶数?",
        "output": "is_even = lambda x: x % 2 == 0",
    },
  ]
}

具体请参考教程 https://optimalscale.github.io/LMFlow/examples/DATASETS.html

谢谢。请问官方的微信群还能加入吗?我看readme里的二维码链接失效了。

已更新,谢谢

感谢关注,text_only适合无标签数据,text2text适合有标签的问答对
针对您提供的例子,可以转换成:

{
  "type": "text2text",
  "instances": [
    {
        "input": "能否帮我写一个python代码判断一个数字是否是偶数?",
        "output": "is_even = lambda x: x % 2 == 0",
    },
  ]
}

具体请参考教程 https://optimalscale.github.io/LMFlow/examples/DATASETS.html

谢谢。请问官方的微信群还能加入吗?我看readme里的二维码链接失效了。

已更新,谢谢

微信二维码还是显示“图片未找到”,方便放在这个issue里吗?

您好,您可以试试这个更新后的链接 社区群wechat

Hi, you may try the updated QR code to see if it works, thanks!

您好,您可以试试这个更新后的链接 社区群wechat

Hi, you may try the updated QR code to see if it works, thanks!

这个有效,已加入,谢谢~