数据科学教程案例
目录
机器学习
- sklearn迭代训练
- numexpr教程
- 时间序列库
- 【TODO】sklearn模型加速
- 【TODO】XGBoost/LightGBM/CatBoost
- 分类任务/回归任务/排序任务
- 自定义评价函数和目标函数
- 自定义数据集训练
- 【TODO】时序数据划分方法
- 【TODO】时序特征工程
Pytorch与深度学习
- 【TODO】Pytorch线性回归
- 【TODO】Pytorch搭建CNN模型
- 【TODO】Pytorch自定义数据集
Paddle与深度学习
- 【TODO】Paddle线性回归
- 【TODO】Paddle搭建CNN模型
- 【TODO】Paddle自定义数据集
可视化库
自然语言处理
NLP与深度学习
- NLP-Pytorch基础
- 文本分类-FastText模型-英文分类
- 文本分类-FastText模型-中文分类
- 文本分类-FastText模型-中文进阶
- 文本分类-TextCNN模型
- 文本分类-BILSTM模型
- 无监督句子编码(Mean/Max/TFIDF/SIF Pooling)
- transformer基础
- BERT文本分类
- BERT实体识别
- BERT文本匹配
- BERT文本问答
- BERT多项选择
- BERT Mask预训练
- BERT + Prompt文本分类
NLP与机器学习
- 【TODO】TextRank中文关键词识别 + 文本摘要
- 【TODO】Rake中文关键词识别 + 文本摘要
计算机视觉
- 【TODO】图像检索:颜色直方图
- 【TODO】图像检索:局部SIFT关键点 + 词袋编码/VLDA/FV
- 【TODO】图像检索:卷积特征/Vit特征
- 【TODO】图像细粒度检索:电商商品识别
- 【TODO】图像自编码器
- 【TODO】图像变分自编码器
- 【TODO】图像MAE自监督训练
生成对抗网络
- 【TODO】手写字体GAN/CGAN/ACGAN
图查询与图分析
大数据中间件
MySQL
Spark
Flink
Kafka
Redis
其他代码
环境说明
- 代码使用Py3 Notebook编写,如无标注深度学习框架均为Pytorch。
- 代码数据集部分需要额外下载,如需要请关注下面公众号询问。
- 部分代码需要GPU,推荐11GB或以上配置
关于我们
- 竞赛日历:https://coggle.club/
- 知乎专栏:https://zhuanlan.zhihu.com/DataAI
- Github主页:https://github.com/coggle-club