🙂 指导设计 @ Prof Feng ; 具体设计 @ W.H Huang
此次为2020年重庆大学计算机系新开课程《大数据基础》设计相应实验和课堂讲解PPT:
-
开源地址:CQU_bigdata
-
当前版本:
Beta V1.0
-->Beta V2.0
-->Relase V1.6.1
-
完成度:
95%
-->100%
-->持续开源完善
-
版本管理:
git
-
开发时间:
(Stage1)2020/01/20 -- 2020/05/07
, 基本框架设计完成
(Stage2)2020/05/07 -- 2020/08/17
,更进一步细节完善
(Stage3)2020/08/17 -- 至今
,开源大家共同完善
下面将简略介绍实验设计和PPT设计相关内容和进度。
实验所有相关步骤、代码等均在实际环境测试运行通过。
具体设计相关信息见下表:
序号 | 实验名 | 实验内容 | 完成度 | 页数 | 备注 |
---|---|---|---|---|---|
ex0 | HelloLinux | 掌握后续实验所需Linux相关操作/知识 | √ | 19 | |
ex1 | SettingUpEnvironment | 搭建Spark/Hadoop分布式环境,三种方式可选 | √ | 27 | |
ex2 | WordCount | Spark单机版环境下基于相关数据集完成青年择偶观统计并进行可视化 | √ | 10 | 还有相关py 文件 |
ex3 | KmeansI | Spark分布式环境下基于iris 数据集完成K-Means聚类并进行可视化 |
√ | 10 | 还有相关py 文件 |
ex4 | CustomerForecast | Spark分布式环境下基于相关数据集完成淘宝回头客预测并进行可视化 | √ | 9 | 还有相关py 文件 |
PPT 设计尽量保证美观大方,素材来源广泛限于自身所学,可能有所错漏。
PPT 部分章节因为自身无法较好把握整体结构,最开始尚未完成设计,现在已基本完成。
- 2020/09/17更新:每个实验也对应增加,实验PPT介绍 & 录音讲解
具体设计见下表:
序号 | 章节名 | PPT内容 | 完成度 | 页数 | 备注 |
---|---|---|---|---|---|
1 | 大数据概述 | 介绍大数据概念、来源、应用等 | √ | 50 | |
2 | Hadoop与Spark简介 | 介绍Hadoop及Spark相关知识 | √ | 69 | 已完成 |
3 | 大数据算法简介 | 介绍大数据相关算法,如:分类、聚类、关联规则、预测等 | √ | 80 | |
4 | 图计算与流计算 | 介绍大数据图计算、流计算相关知识 | √ | 72 | |
5 | 大数据应用介绍 | 介绍大数据相关应用,如:推荐系统、地震大数据、交通大数据、环境大数据等 | √ | 53 |
-
2020/02/10
距离具体正式开工设计正好过去了
20
天,刚刚完成Beta_V1.0
版本的我感觉头昏脑涨,不过接下来可以休息一两天啦。设计过程遇到一些困难,实验设计方面因为大部分都还在自己掌握的知识范围内,虽然有时候集群崩溃、调试不出结果让人很抓狂但不懂的
Google
、百度、Stackoverflow
..总之还算解决了。对我而言最难的是PPT相关设计,虽然老师给了比较详细的大纲,但我自己对大数据一些知识都并不熟悉。具体设计时只好到处翻看博客,经常会为进度而焦虑,可能开学相关论文也要开始看了。 -
2020/05/07
隔了几个月终于把最后一部分课件(
第二章:Hadoop&Spark简介
)做完了,感觉还是相当耗脑的,主要还是如何把握整体框架要花费较多时间思考,其次就是画图和表格也较为耗费时间。 -
2020/08/17
基本上PPT和实验已经全部按老师的指导完成,PPT一些算法细节可能要补充参数说明。
-
2020/09/17
课程PPT和实验已正式投入使用,所有参加该门课程的同学都可一起加入完善。