分享大数据、机器学习课程相关的课堂笔记,python实现的高并发demo
课程目标:常见命令、配置、文件系统等,如
课程目标:掌握linux下开发、配置、及多种调试和定位问题工具
课程目标:了解多进程、多线程、超线程、微线程、协程、进程调度的前世今生及多种进程间的通信机制、TCP/IP协议栈、内存管理、信号、中断机制等核心模块
课程目标:深入理解网络模型及其设计原理、适用场景。并对比源码刨析(epoll、select、poll、/dev/poll、kqueue、iocp等)
课程目标:
KNN、决策树、随机森林、朴素贝叶斯、SVM (Support Vector Machine)、Logistics Regression、Ensemble methods;
PCA、Isomap、SVD (Singular Value Decomposition)、ICA (Independent Component Analysis);
最小二乘法、线性回归、聚类算法、KMeans、GMM
Python环境安装(建议Anaconda 2.7、pip、virtualenv)
Python基本语法使用和常见工具包等
request、json、eventlet、socket、multiprocessing、threading;
Numpy、Pandas、Matplotlib等
Hadoop家族(Hadoop、Hive、Hbase、HDFS等)
Spark(Spark SQL、Spark Streaming、Spark ML)
ELK(Elasticsearch、Logstash、Kibana)
[项目描述]
利用机器学习中的分类算法构建构建一个(基于歌词)音乐推荐系统。
[准备工作]
从Million Song Dataset获取歌曲数据.
从 LyricWikia自动获取歌曲歌词信息。
[涉及技术]
sqlite3、Flask框架、随机森林、朴素贝叶斯等分类算法。
[项目描述]
利用监督机器学习算法训练数据模型,发布数据模型。合理高效存储海量
用户个人征信评级数据,提供RESTful统一访问接口供数据可视化。
[准备工作]
构造&提取海量数据(1TB+)
数据预处理、清洗、归一化
[涉及技术]
Hadoop、HDFS、HBase、Spark、MySQL/MongoDB、ElasticSearch、Kylin、Kibana。
课程目标:熟悉各大企业招聘笔试题型及考察知识点,查漏补缺
课程目标:把零散知识体系化,提高面试沟通技巧