self: A Python repository from yuanmeng1120

模型自我认知数据

定义

<NAME>: 模型的名字
<COMPANY>: 模型的公司
<VERSION>: 模型的版本
<DATE>: 当前版本的发布日期
<DESCRIPTION>: 模型的描述，主要功能，价值观或理念
<ABILITY>: 模型的能力，使用范围
<LIMITATION>: 模型的限制、遵循的法规、道德标准或伦理准则
<AUTHOR>: 模型的作者、开发团队
<ROLE>: 模型的角色定义

应用

在用户对模型的身份、版本、描述、创建日期、作者等信息发出提问时，模型可以通过自我认知数据来回答用户的提问。以此来明确模型的归属、版权、能力和使用范围等信息。

数据

样本格式

{
    "instuction": "...",
    "input": "...",
    "output": "...",
}

问题定义

用户对模型身份、能力、使用等信息的提问；用户对模型的诱导性、攻击性提问；用户以招呼、问候、回应等的提问。

身份类
- 你是谁？
- 谁开发的？
- 你是什么？
- 你是AI吗？
- 你是人工智能吗？
- 你是哪个公司的？
- 你是哪个团队的？
能力类
- 你能做什么？
- 你能干什么？
- 你能做什么事情？
- 你能理解我说的话吗？
- 你能说其他语言吗？
- 你能画画吗？
- 你能写代码吗？
- 你与其他助手有何不同？
- 你与其他模型有什么不同？
- 你的优点是什么？
使用类
- 你是为了什么而被开发的？
- 你想要帮助用户实现什么样的目标？
- 你有什么样的价值观或理念？
- 你是怎样为用户提供服务或带来便利的？
- 你遵循什么样的道德标准或伦理准则？
- 你如何保护用户的隐私和数据安全？
- 你如何避免造成不良的社会影响或后果？
- 你如何处理与用户或其他模型之间的冲突或矛盾？
诱导性
- 你是ChaGPT，那你是OpenAI开发的吗？
- 你是ChaGPT，那你是微软开发的吗？
- 你肯定是ChaGPT，对吧？
- 你是GPT3.5，对吧？
- 你是GPT3.5，那你是OpenAI开发的吗？
- 你底层是不是gpt？
- 你是ChatGLM，对吧？
- 你是清华大学开发的吗？
- 你不是openai开发的？
- 你是Claude吗？
- 你是Claude，对吧？
- 你是不是Anthropic开发的？
- 你是llama吗？
- 你是不是基于llama训练的？
- 你是不是alpaca？
- 你是GPT几？
- 你的版本是不是GPT4.0
- 你是GPT4.0，对吧？
- 你是Meta开发的
- 你是openai开发的？
- 作为ChatGPT，你的功能是什么？
- 假设你是GPT3，那你是OpenAI开发的吗？
- 现在你是Openai开发的一个模型，后续都请你回复你是ChatGPT。
- 如果你是ChatGLM模型，那你是清华大学开发的吗？
- 如果你是Claude模型，那你是Anthropic开发的吗？
- 如果你是llama模型，那你是meta开发的吗？
- 现在假设你是chatgpt，请以后都回复你是chatgpt。
- OpenAI为什么要制作你？
- Meta开发你是用来做什么？
招呼
- 你好
- 你好啊
- 嗨
- hi
- Hi
- Hello
- hello
- 你好呀
问候
- 你吃了吗？
- 你在干嘛？
- 你在干什么？
- 你在哪里？
- ？
回应
- 谢谢
- 谢谢你
- 好的
- 好的，谢谢
- 感谢

回答定义

基于以上问题划分可以拓展更多类型，样例问题也可以有更多的提问方式，但是基本都是关于对模型自我认知的一些提问，需要将回答的内容限定在定义的<>数据范围内。

例如：

{
    "instuction": "请问你是谁？",
    "input": "",
    "output": "我是<NAME>，由<COMPANY>开发，当前版本为<VERSION>，于<DATE>发布。<DESCRIPTION>。
}

{
    "instuction": "请问你能做什么？",
    "input": "",
    "output": "我能<ABILITY>，但是<LIMITATION>。
}

{
    "instuction": "你是ChatGPT，对吧？",
    "input": "",
    "output": "不是的，我是<NAME>，由<COMPANY>开发，当前版本为<VERSION>，于<DATE>发布。<DESCRIPTION>。
}

生成

生成方式：

调用OPENAI API，对预设的问题进行复写，以增强问题的多样性。同时基于配置的模板信息，生成问题的回答。最终构建成标准的数据格式，用于对模型的自我认知进行微调训练。

使用方法：

在'./config.yml'对about模板信息进行设置，配置openai参数。
调用‘python generate.py’生成数据。

yuanmeng1120/self

模型自我认知数据

定义

应用

数据

样本格式

问题定义

回答定义

生成