DS_Skills_Matrix

To be a data scientist

Theory Programming Project Practise
Level I 概率论基础 Excel 回归/分类
统计分布 SQL(ETL) 基础分析报告撰写(PPT)
方差检验 BI Tool(可视化)
回归分析 R (数据处理,可视化)
结构化数据 Python(数据处理,可视化)
Level II 机器学习基础 Linux,Git Kaggle比赛案例
非结构化数据 R(caret, mlr框架) 报告进阶(markdown…)
大数据基础 Python(scikit-learning框架)
JavaScript (可视化)
Level III 深度学习基础 Python - Tensorflow NLP —— ChatBot
R - MXNet CV —— 多目标检测
Kaggle比赛案例

Route 01: 入门,进阶,大师导向

按Level做为系列书籍的主线,对数据科学技能进行梳理

Pros:对不同级别的学习人士友善

Cons:需要时间对知识点进行拆分,并设计好不同level之间的过渡

Route 02: 科学领域导向

按理论,技能,实战做为书籍编写的主线

Pros:分类明确

Cons:与传统教学没有差异

Route 03: 数据产品思维导向

以落地产品为主线,不断引出数据科学家所需的必备技能。

Pros:有更强的数据思维

Cons:在项目的设计上需要投入较大的精力

目前首要任务:

  • 完善数据科学家技能矩阵
  • 补充每个技能点下的知识点
  • 确认系列书籍的编辑设计路线