Datawhale 组队学习

2021年01月09日，第21期 Datawhale 组队学习活动马上就要开始啦！

本次组队学习的内容为：

数据挖掘实战（学术前沿趋势分析）
编程实践（LeetCode 腾讯精选练习50）
数据挖掘实战（异常检测）
自然语言处理实践（知识图谱）

大家可以根据我们的开源内容进行自学，也可以加入我们的组队学习一起来学。

1. 数据分析实践（学术前沿趋势分析）

开源内容：https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends

基本信息

贡献人员：刘羽中、杨毅远、张晋、雷钲仪、周郴莲、宋怡然、姚童
学习周期：15天，每天平均花费时间2小时-5小时不等，根据个人学习接受能力强弱有所浮动。
学习形式：理论+练习
人群定位：熟悉数据挖掘的基本方法，对学习数据分析掌握比赛技巧有需求的学员。
先修内容：Python编程语言、编程实践（Numpy）、编程实践（Pandas）、编程实践（数据可视化）
难度系数：中

学习目标

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门数据分析之学术前沿趋势分析。

赛题以数据分析为背景，要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同，本次赛题不仅要求选手对数据进行建模，而且需要选手利用赛题数据完成具体的可视化分析。

为更好的引导大家入门，我们同时为本赛题定制了系列学习方案，其中包括数据科学库使用（Pandas、Numpy和Matplotlib）、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习，可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。

任务安排

Task00：熟悉规则（1天）

组队、修改群昵称。
熟悉打卡规则。

Task1：论文数据统计（3天）Link

学习主题：论文数量统计（数据统计任务），统计2019年全年，计算机各个方向论文数量；
学习内容：赛题理解、Pandas读取数据、数据统计；
学习成果：学习Pandas基础；

Task2：论文作者统计（3天）Link

学习主题：论文作者统计（数据统计任务），统计所有论文作者出现评率Top10的姓名；
学习内容：作者姓名识别和统计；
学习成果：学习字符串基本操作、Matplotlib基础使用、Seaborn基础使用；

Task3：论文代码统计（3天）Link

学习主题：论文代码统计（数据统计任务），统计所有论文类别下包含源代码论文的比例；
学习内容：代码链接识别和统计；
学习成果：学会使用正则表达式；

Task4：论文种类分类（3天）Link

学习主题：论文种类分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；
学习内容：使用论文标题完成类别分类；
学习成果：学会文本分类的基本方法、TFIDF等；

Task5：作者信息关联（3天）Link

学习主题：作者信息关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；
学习内容：构建作者关系图，挖掘作者关系；
学习成果：论文作者知识图谱、图关系挖掘；

2. 编程实践（LeetCode 腾讯精选练习50）

开源内容：https://github.com/datawhalechina/team-learning-program/tree/master/LeetCodeTencent

基本信息

贡献人员：姚行志，韩绘锦，徐韬，马燕鹏
学习周期：20天，每天平均花费时间2小时-5小时不等，根据个人学习接受能力强弱有所浮动。
学习形式：练习
人群定位：有一定编程基础，对学习算法有需求的学员。
先修内容：Python编程语言、数据结构与算法、编程实践（LeetCode 分类练习）
难度系数：中

学习目标

每天刷三道题，利用20天完成Leetcode腾讯精选练习50题。

任务安排

Task00：熟悉规则（1天）

组队、修改群昵称
熟悉打卡规则

Task01：完成以下三个题目并打卡（1天）

Task02: 完成以下三个题目并打卡（1天）

Task03: 完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

Task04: 完成以下三个题目并打卡（1天）

Task05: 完成以下三个题目并打卡（1天）

Task06：完成以下三个题目并打卡（1天）

Task07: 完成以下三个题目并打卡（1天）

Task 08: 完成以下三个题目并打卡（1天）

Task09: 完成以下三个题目并打卡（1天）

Task10: 完成以下三个题目并打卡（1天）

Task11: 完成以下三个题目并打卡（1天）

Task12: 完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

Task13: 完成以下三个题目并打卡（1天）

Task14：完成以下三个题目并打卡（1天）

Task15：完成以下三个题目并打卡（1天）

Task16：完成以下三个题目并打卡（1天）

Task17：完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

3. 数据挖掘实战（异常检测）

开源内容：https://github.com/datawhalechina/team-learning-data-mining/tree/master/AnomalyDetection

基本信息

贡献人员：梁家晖，李玲，李芝翔，赵可，陈信达
学习周期：14天，每天平均花费时间2小时-5小时不等，根据个人学习接受能力强弱有所浮动。
学习形式：理论+实践
人群定位：熟悉数据挖掘的基本方法，对学习异常检测算法有需求的学员。
先修内容：Python编程语言、编程实践（Numpy）、编程实践（Pandas）、编程实践（数据可视化）
难度系数：中

学习目标

理解传统的异常检测方法原理，并具备基本的调用相应python库进行操作的能力。

任务安排

Task00：熟悉规则（1天）

组队、修改群昵称
熟悉打卡规则。

Task01：异常检测介绍（2天）

了解异常检测基本概念
了解异常检测基本方法

Task02：基于统计学的方法（3天）

掌握基于高斯分布的异常检测方法
理解非参数异常检测方法
掌握HBOS算法

Task03：线性模型（3天）

理解线性回归
掌握主成分分析的异常检测方法

Task04：基于相似度的方法（3天）

理解基于距离的异常检测方法
掌握基于密度的LOF算法

Task05：高维异常检测（3天）

了解集成方法的**
理解feature bagging原理
掌握孤立森林算法

4. 自然语言处理实践（知识图谱）

开源内容：https://github.com/datawhalechina/team-learning-nlp/tree/master/KnowledgeGraph_Basic

基本信息

贡献人员：吴晓均、杨开漠、康兵兵，周郴莲，王翔，超逸，王嘉鹏，陈安东，段秋阳
学习周期：8天
学习形式：理论 + 实践
人群定位：熟悉自然语言处理基本方法，对学习知识图谱算法有需求的学员。
先修内容：Python编程语言
难度系数：中

学习目标

理解知识图谱的基本原理，熟悉Neo4j并具备基本的调用相应python库进行操作的能力。

任务安排

Task00：熟悉规则（1天）

组队、修改群昵称
熟悉打卡规则

Task01：知识图谱介绍（1天）

知识图谱简介
怎么构建知识图谱
知识图谱的存储
Neo4j 介绍与安装
Neo4j 实战
通过 Python 操作 Neo4j
通过csv文件批量导入图数据

Task02：基于医疗知识图谱的问答系统操作介绍（1天）

引言
运行环境
搭建知识图谱
启动问答测试
代码目录介绍

Task03：Neo4j图数据库导入数据（1天）

引言
Neo4j简介
Neo4j 数据导入
总结

Task04：用户输入->知识库的查询语句（2天）

引言
什么是问答系统
任务实践
主体类 EntityExtractor 框架介绍
命名实体识别任务实践
意图识别任务实践

Task05：Neo4j 图数据库查询（2天）

Neo4j介绍
基于知识图谱的问题系统主体类 AnswerSearching 框架介绍
代码分模块介绍

具体规则

注册 CSDN、Github 或 B站等账户。
按照任务安排进行学习，完成后写学习笔记Blog 或进行视频直播。
在每次任务截止之前在群内填写问卷打卡，遇到问题在群内讨论。
未按时打卡的同学视为自动放弃，被抱出学习群。

备注

有关Datawhale组队学习的开源内容如下：

本次组队学习的 PDF 文档可到Datawhale的知识星球下载：

wbchief/team-learning

Datawhale 组队学习

1. 数据分析实践（学术前沿趋势分析）

基本信息

学习目标

任务安排

Task00：熟悉规则（1天）

Task1：论文数据统计（3天）Link

Task2：论文作者统计（3天）Link

Task3：论文代码统计（3天）Link

Task4：论文种类分类（3天）Link

Task5：作者信息关联（3天）Link

2. 编程实践（LeetCode 腾讯精选练习50）

基本信息

学习目标

任务安排

Task00：熟悉规则（1天）

Task01：完成以下三个题目并打卡（1天）

Task02: 完成以下三个题目并打卡（1天）

Task03: 完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

Task04: 完成以下三个题目并打卡（1天）

Task05: 完成以下三个题目并打卡（1天）

Task06：完成以下三个题目并打卡（1天）

Task07: 完成以下三个题目并打卡（1天）

Task 08: 完成以下三个题目并打卡（1天）

Task09: 完成以下三个题目并打卡（1天）

Task10: 完成以下三个题目并打卡（1天）

Task11: 完成以下三个题目并打卡（1天）

Task12: 完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

Task13: 完成以下三个题目并打卡（1天）

Task14：完成以下三个题目并打卡（1天）

Task15：完成以下三个题目并打卡（1天）

Task16：完成以下三个题目并打卡（1天）

Task17：完成以下三个题目并打卡（1天）

TaskShare：讨论总结分享（1天）

3. 数据挖掘实战（异常检测）

基本信息

学习目标

任务安排

Task00：熟悉规则（1天）

Task01：异常检测介绍（2天）

Task02：基于统计学的方法（3天）

Task03：线性模型（3天）

Task04：基于相似度的方法（3天）

Task05：高维异常检测（3天）

4. 自然语言处理实践（知识图谱）

基本信息

学习目标

任务安排

Task00：熟悉规则（1天）

Task01：知识图谱介绍（1天）

Task02：基于医疗知识图谱的问答系统操作介绍（1天）

Task03：Neo4j图数据库导入数据（1天）

Task04：用户输入->知识库的查询语句（2天）

Task05：Neo4j 图数据库查询（2天）

具体规则

备注