/roleplay-dataset

收集优质的角色扮演聊天数据 | Collection of roleplay conversations of high quality

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

Rolplay Dataset

这是一个为了收集优质角色扮演对话记录的仓库.

如果您有优质的对话记录, 并且愿意提交到本仓库, 请参考贡献指南来提交您的聊天记录.

本仓库将生成sharegpt格式的数据集, 可以直接用于LLaMA-Factory进行SFT训练.

[
    {
        "system": "something",
        "conversations": [
            {
                "from": "human",
                "value": "say something"
            },
            {
                "from": "gpt",
                "value": "reply something"
            }
        ]
    }
]

想要生成数据集文件, 只需运行:

python scripts/release.py

这会根据data文件夹中的所有内容, 在仓库目录下生成一个名为dataset.parquet的数据集文件.

致谢

@Kas1o提供了便捷的数据导出插件