/SCU_OAA-website-Captcha-training-set

四川大学JWC网站验证码10000张及对应标签数据集,可用于深度学习模型构建。Captcha tranning set for Website of the Office of Academic affair of Sichuan University.

Primary LanguagePython

JW系统验证码 训练集

更新

  • [2023/12/13] 目前JWC已经更换为了非常复杂的验证码 (中文+动画+闪烁),所以本仓库仅供娱乐实验使用。

  • 已经基于本仓库内的生成方法生成了10w个数据集训练的深度学习模型,并已经发布到pip(PYPI),在有pytorch的基础上可以通过pip install scu_captcha以下载使用。

    Readme Card

  • 10w数据集百度网盘链接:

简介

  • 本仓库中含有 10000 条四川大学JW系统验证码,并已经打上对应的标签

  • 验证码中只包含如下字符:2345678abcdefgmnpwxy,共20个字符随机排列组合生成的4位验证码,与教务处生成的验证码的定义域完全匹配

  • 数据集采用谷歌的Kaptcha生成。

  • 实际使用时魔改了此Github仓库的代码用于渲染生成:

    Readme Card

    因为魔改实在过于丑陋,就不放本人的源代码在这里了。

  • 可以用于深度学习的训练集,尝试构建Hack JWC的深度学习模型

使用

  • 验证码图片存储于IMAGES.zip
  • 标签集合存于label.csv中,每一行是[图片序号, 验证码对应字符串] 的列表,可以用Python的如下方法读取:
import csv
data = []
# 读取数据
with open("label.csv", 'r', newline="" , encoding="utf8") as f:
    reader = csv.reader(f)
    for row in reader:
        data.append(row)
# 预览数据
for line in data:
    print(line)

序号与IMAGES.zip;里的文件名一一对应。

当然,如果需要进行深度学习还需要进行训练集测试集划分,随机抽取等等操作,请自行处理,祝君好运~