/BAT-ML

分享大数据、机器学习课程相关的课堂笔记,包含python实现的高并发demo

Primary LanguagePython

大数据&机器学习

分享大数据、机器学习课程相关的课堂笔记,python实现的高并发demo

linux基础课程(共计45课时)

课程目标:常见命令、配置、文件系统等,如

linux拔高课程(共计40课时)

课程目标:掌握linux下开发、配置、及多种调试和定位问题工具

操作系统(共计60课时)

课程目标:了解多进程、多线程、超线程、微线程、协程、进程调度的前世今生及多种进程间的通信机制、TCP/IP协议栈、内存管理、信号、中断机制等核心模块

网络编程(共计90课时)

课程目标:深入理解网络模型及其设计原理、适用场景。并对比源码刨析(epoll、select、poll、/dev/poll、kqueue、iocp等)

数据结构算法(共计60课时)

课程目标:

分类算法

KNN、决策树、随机森林、朴素贝叶斯、SVM (Support Vector Machine)、Logistics Regression、Ensemble methods;

降维算法

PCA、Isomap、SVD (Singular Value Decomposition)、ICA (Independent Component Analysis);

回归算法

最小二乘法、线性回归、聚类算法、KMeans、GMM

Python学习(共计36课时)

Python环境安装(建议Anaconda 2.7、pip、virtualenv)
Python基本语法使用和常见工具包等
  request、json、eventlet、socket、multiprocessing、threading;
  Numpy、Pandas、Matplotlib等

大数据常用组件学习(共计40课时)

Hadoop家族(Hadoop、Hive、Hbase、HDFS等)
Spark(Spark SQL、Spark Streaming、Spark ML)
ELK(Elasticsearch、Logstash、Kibana)

项目实战(共计40课时)

《音乐推荐系统》

[项目描述]
  利用机器学习中的分类算法构建构建一个(基于歌词)音乐推荐系统。
[准备工作]
  从Million Song Dataset获取歌曲数据.
  从 LyricWikia自动获取歌曲歌词信息。
[涉及技术]
  sqlite3、Flask框架、随机森林、朴素贝叶斯等分类算法。

《个人征信-360度画像》

[项目描述]
  利用监督机器学习算法训练数据模型,发布数据模型。合理高效存储海量   
     用户个人征信评级数据,提供RESTful统一访问接口供数据可视化。
[准备工作]
  构造&提取海量数据(1TB+)
   数据预处理、清洗、归一化
[涉及技术]
 Hadoop、HDFS、HBase、Spark、MySQL/MongoDB、ElasticSearch、Kylin、Kibana。

历年校招笔试题讲解(共计20课时)

课程目标:熟悉各大企业招聘笔试题型及考察知识点,查漏补缺

模拟面试(共计15课时)

课程目标:把零散知识体系化,提高面试沟通技巧