/team-learning

主要展示Datawhale的组队学习计划。

Datawhale 组队学习

2021年01月09日,第21期 Datawhale 组队学习活动马上就要开始啦!

本次组队学习的内容为:

  • 数据挖掘实战(学术前沿趋势分析)
  • 编程实践(LeetCode 腾讯精选练习50)
  • 数据挖掘实战(异常检测)
  • 自然语言处理实践(知识图谱)

大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。


1. 数据分析实践(学术前沿趋势分析)

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends

基本信息

  • 贡献人员:刘羽中杨毅远、张晋、雷钲仪、周郴莲、宋怡然、姚童
  • 学习周期:15天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
  • 学习形式:理论+练习
  • 人群定位:熟悉数据挖掘的基本方法,对学习数据分析掌握比赛技巧有需求的学员。
  • 先修内容:Python编程语言编程实践(Numpy)编程实践(Pandas)编程实践(数据可视化)
  • 难度系数:中

学习目标

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门数据分析之学术前沿趋势分析。

赛题以数据分析为背景,要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同,本次赛题不仅要求选手对数据进行建模,而且需要选手利用赛题数据完成具体的可视化分析。

为更好的引导大家入门,我们同时为本赛题定制了系列学习方案,其中包括数据科学库使用(Pandas、Numpy和Matplotlib)、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习,可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。

任务安排

Task00:熟悉规则(1天)

  • 组队、修改群昵称。
  • 熟悉打卡规则。

Task1:论文数据统计(3天)Link

  • 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量;
  • 学习内容:赛题理解、Pandas读取数据、数据统计 ;
  • 学习成果:学习Pandas基础;

Task2:论文作者统计(3天)Link

  • 学习主题:论文作者统计(数据统计任务),统计所有论文作者出现评率Top10的姓名;
  • 学习内容:作者姓名识别和统计;
  • 学习成果:学习字符串基本操作、Matplotlib基础使用、Seaborn基础使用;

Task3:论文代码统计(3天)Link

  • 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
  • 学习内容:代码链接识别和统计;
  • 学习成果:学会使用正则表达式;

Task4:论文种类分类(3天)Link

  • 学习主题:论文种类分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
  • 学习内容:使用论文标题完成类别分类;
  • 学习成果:学会文本分类的基本方法、TFIDF等;

Task5:作者信息关联(3天)Link

  • 学习主题:作者信息关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
  • 学习内容:构建作者关系图,挖掘作者关系;
  • 学习成果:论文作者知识图谱、图关系挖掘;

2. 编程实践(LeetCode 腾讯精选练习50)

开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/LeetCodeTencent

基本信息

  • 贡献人员:姚行志,韩绘锦,徐韬,马燕鹏
  • 学习周期:20天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
  • 学习形式:练习
  • 人群定位:有一定编程基础,对学习算法有需求的学员。
  • 先修内容:Python编程语言数据结构与算法编程实践(LeetCode 分类练习)
  • 难度系数:中

学习目标

每天刷三道题,利用20天完成Leetcode腾讯精选练习50题。

任务安排

Task00:熟悉规则(1天)

  • 组队、修改群昵称
  • 熟悉打卡规则

Task01:完成以下三个题目并打卡(1天)

Task02: 完成以下三个题目并打卡(1天)

Task03: 完成以下三个题目并打卡(1天)

TaskShare:讨论总结分享(1天)

Task04: 完成以下三个题目并打卡(1天)

Task05: 完成以下三个题目并打卡(1天)

Task06:完成以下三个题目并打卡(1天)

Task07: 完成以下三个题目并打卡(1天)

Task 08: 完成以下三个题目并打卡(1天)

Task09: 完成以下三个题目并打卡(1天)

Task10: 完成以下三个题目并打卡(1天)

Task11: 完成以下三个题目并打卡(1天)

Task12: 完成以下三个题目并打卡(1天)

TaskShare:讨论总结分享(1天)

Task13: 完成以下三个题目并打卡(1天)

Task14:完成以下三个题目并打卡(1天)

Task15:完成以下三个题目并打卡(1天)

Task16:完成以下三个题目并打卡(1天)

Task17:完成以下三个题目并打卡(1天)

TaskShare:讨论总结分享(1天)


3. 数据挖掘实战(异常检测)

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AnomalyDetection

基本信息

学习目标

理解传统的异常检测方法原理,并具备基本的调用相应python库进行操作的能力。

任务安排

Task00:熟悉规则(1天)

  • 组队、修改群昵称
  • 熟悉打卡规则。

Task01:异常检测介绍(2天)

  • 了解异常检测基本概念
  • 了解异常检测基本方法

Task02:基于统计学的方法(3天)

  • 掌握基于高斯分布的异常检测方法
  • 理解非参数异常检测方法
  • 掌握HBOS算法

Task03:线性模型(3天)

  • 理解线性回归
  • 掌握主成分分析的异常检测方法

Task04:基于相似度的方法(3天)

  • 理解基于距离的异常检测方法
  • 掌握基于密度的LOF算法

Task05:高维异常检测(3天)

  • 了解集成方法的**
  • 理解feature bagging原理
  • 掌握孤立森林算法

4. 自然语言处理实践(知识图谱)

开源内容:https://github.com/datawhalechina/team-learning-nlp/tree/master/KnowledgeGraph_Basic

基本信息

  • 贡献人员:吴晓均、杨开漠、康兵兵,周郴莲,王翔,超逸,王嘉鹏,陈安东,段秋阳
  • 学习周期:8天
  • 学习形式:理论 + 实践
  • 人群定位:熟悉自然语言处理基本方法,对学习知识图谱算法有需求的学员。
  • 先修内容:Python编程语言
  • 难度系数:中

学习目标

理解知识图谱的基本原理,熟悉Neo4j并具备基本的调用相应python库进行操作的能力。

任务安排

Task00:熟悉规则(1天)

  • 组队、修改群昵称
  • 熟悉打卡规则

Task01:知识图谱介绍(1天)

  • 知识图谱简介
  • 怎么构建知识图谱
  • 知识图谱的存储
  • Neo4j 介绍与安装
  • Neo4j 实战
  • 通过 Python 操作 Neo4j
  • 通过csv文件批量导入图数据

Task02:基于医疗知识图谱的问答系统操作介绍(1天)

  • 引言
  • 运行环境
  • 搭建知识图谱
  • 启动问答测试
  • 代码目录介绍

Task03:Neo4j图数据库导入数据(1天)

  • 引言
  • Neo4j简介
  • Neo4j 数据导入
  • 总结

Task04:用户输入->知识库的查询语句(2天)

  • 引言
  • 什么是问答系统
  • 任务实践
  • 主体类 EntityExtractor 框架介绍
  • 命名实体识别任务实践
  • 意图识别任务实践

Task05:Neo4j 图数据库查询(2天)

  • Neo4j介绍
  • 基于知识图谱的问题系统 主体类 AnswerSearching 框架介绍
  • 代码分模块介绍

具体规则

  • 注册 CSDN、Github 或 B站等账户。
  • 按照任务安排进行学习,完成后写学习笔记Blog 或 进行视频直播。
  • 在每次任务截止之前在群内填写问卷打卡,遇到问题在群内讨论。
  • 未按时打卡的同学视为自动放弃,被抱出学习群。

备注

有关Datawhale组队学习的开源内容如下:


本次组队学习的 PDF 文档可到Datawhale的知识星球下载:

Datawhale


Datawhale