To be a data scientist
Theory | Programming | Project Practise | |
---|---|---|---|
Level I | 概率论基础 | Excel | 回归/分类 |
统计分布 | SQL(ETL) | 基础分析报告撰写(PPT) | |
方差检验 | BI Tool(可视化) | ||
回归分析 | R (数据处理,可视化) | ||
结构化数据 | Python(数据处理,可视化) | ||
Level II | 机器学习基础 | Linux,Git | Kaggle比赛案例 |
非结构化数据 | R(caret, mlr框架) | 报告进阶(markdown…) | |
大数据基础 | Python(scikit-learning框架) | ||
JavaScript (可视化) | |||
Level III | 深度学习基础 | Python - Tensorflow | NLP —— ChatBot |
R - MXNet | CV —— 多目标检测 | ||
Kaggle比赛案例 |
按Level做为系列书籍的主线,对数据科学技能进行梳理
Pros:对不同级别的学习人士友善
Cons:需要时间对知识点进行拆分,并设计好不同level之间的过渡
按理论,技能,实战做为书籍编写的主线
Pros:分类明确
Cons:与传统教学没有差异
以落地产品为主线,不断引出数据科学家所需的必备技能。
Pros:有更强的数据思维
Cons:在项目的设计上需要投入较大的精力
- 完善数据科学家技能矩阵
- 补充每个技能点下的知识点
- 确认系列书籍的编辑设计路线