2020CQU本科生实验和PPT设计

引言

🙂 指导设计 @ Prof Feng ; 具体设计 @ W.H Huang

此次为2020年重庆大学计算机系新开课程《大数据基础》设计相应实验和课堂讲解PPT：

开源地址：CQU_bigdata
当前版本：Beta V1.0 --> Beta V2.0-->Relase V1.6.1
完成度：95% --> 100% --> 持续开源完善
版本管理：git
开发时间：(Stage1)2020/01/20 -- 2020/05/07 , 基本框架设计完成

(Stage2)2020/05/07 -- 2020/08/17 ，更进一步细节完善

(Stage3)2020/08/17 -- 至今 ，开源大家共同完善

下面将简略介绍实验设计和PPT设计相关内容和进度。

实验所有相关步骤、代码等均在实际环境测试运行通过。

具体设计相关信息见下表：

序号	实验名	实验内容	完成度	页数	备注
ex0	HelloLinux	掌握后续实验所需Linux相关操作/知识	√	19
ex1	SettingUpEnvironment	搭建Spark/Hadoop分布式环境，三种方式可选	√	27
ex2	WordCount	Spark单机版环境下基于相关数据集完成青年择偶观统计并进行可视化	√	10	还有相关`py`文件
ex3	KmeansI	Spark分布式环境下基于`iris` 数据集完成K-Means聚类并进行可视化	√	10	还有相关`py`文件
ex4	CustomerForecast	Spark分布式环境下基于相关数据集完成淘宝回头客预测并进行可视化	√	9	还有相关`py`文件

PPT 设计尽量保证美观大方，素材来源广泛限于自身所学，可能有所错漏。

PPT 部分章节因为自身无法较好把握整体结构，最开始尚未完成设计，现在已基本完成。

具体设计见下表：

序号	章节名	PPT内容	完成度	页数	备注
1	大数据概述	介绍大数据概念、来源、应用等	√	50
2	Hadoop与Spark简介	介绍Hadoop及Spark相关知识	√	69	已完成
3	大数据算法简介	介绍大数据相关算法，如：分类、聚类、关联规则、预测等	√	80
4	图计算与流计算	介绍大数据图计算、流计算相关知识	√	72
5	大数据应用介绍	介绍大数据相关应用，如：推荐系统、地震大数据、交通大数据、环境大数据等	√	53

2020/02/10

距离具体正式开工设计正好过去了20 天，刚刚完成Beta_V1.0 版本的我感觉头昏脑涨，不过接下来可以休息一两天啦。

设计过程遇到一些困难，实验设计方面因为大部分都还在自己掌握的知识范围内，虽然有时候集群崩溃、调试不出结果让人很抓狂但不懂的Google 、百度、Stackoverflow ..总之还算解决了。对我而言最难的是PPT相关设计，虽然老师给了比较详细的大纲，但我自己对大数据一些知识都并不熟悉。具体设计时只好到处翻看博客，经常会为进度而焦虑，可能开学相关论文也要开始看了。
2020/05/07

隔了几个月终于把最后一部分课件（第二章：Hadoop&Spark简介）做完了，感觉还是相当耗脑的，主要还是如何把握整体框架要花费较多时间思考，其次就是画图和表格也较为耗费时间。
2020/08/17

基本上PPT和实验已经全部按老师的指导完成，PPT一些算法细节可能要补充参数说明。
2020/09/17

课程PPT和实验已正式投入使用，所有参加该门课程的同学都可一起加入完善。