/DatasetFactory

To publish datasets made by myself

Primary LanguagePython

DatasetFactory

To publish datasets made by myself

retarded_bar

弱智吧是百度贴吧中的一个非常受欢迎的论坛,以创作短小精悍的冷笑话而闻名。这些笑话通常采用双关语、不寻常的断句、不合理的逻辑等创作手法。即使是目前最先进的语言模型,也难以完全理解弱智吧的笑话。

我从互联网上收集了一些弱智吧的笑话,共100条,其中45条是陈述句,55条是问句。我结合人工和人工智能技术对这些笑话进行了一些解析,并制作了这个小型数据集。

SoftwareTutorialVideos

本数据集包括从bilibili收集的127个视频链接,存储在SoftwareTutorialVideos.jsonl中。大部分视频链接包含多个视频。本数据集总共有数千个视频,总时长超过一千小时。若按照最高清晰度下载,大小超过300G.

视频的主要内容是常用的软件教程,涵盖Word,Excel, Power Point,Visual Studio Code,python,C++,JavaScript,Java,Linux,MacOS,Unreal Engine,AutoCAD,Rhino,PhotoShop,After Effects, Vocaloid等。

本数据集既可用于个人学习,也可用于和桌面系统UI有关的计算机视觉任务,例如视频动作识别,视频理解,版面分析,图像分类,图像生成,机器人流程自动化(RPA)等。

ChatGPT ground truth

本数据集由ChatGPT自动生成,包含自然科学和社会科学中的事实性问题(factual questions)和相应的参考答案,涵盖数学、物理、化学、生物学、医学、工程、计算机科学、社会科学八大领域,每个领域选择了20个细分子领域,每个子领域有500个问答对,共80000个问答对。

本数据集可以帮助较小规模的模型进行训练,以缓解幻觉问题。

contact the author

QQ:583753622