/CQU_bigdata

2020年本科生大数据导论实验和PPT设计

Primary LanguagePython

2020CQU本科生实验和PPT设计

Design by W.H Huang | Direct by Prof Feng

引言

🙂 指导设计 @ Prof Feng ; 具体设计 @ W.H Huang

此次为2020年重庆大学计算机系新开课程《大数据基础》设计相应实验和课堂讲解PPT:

  • 开源地址:CQU_bigdata

  • 当前版本:Beta V1.0 --> Beta V2.0-->Relase V1.6.1

  • 完成度:95% --> 100% --> 持续开源完善

  • 版本管理:git

  • 开发时间:(Stage1)2020/01/20 -- 2020/05/07 , 基本框架设计完成

    (Stage2)2020/05/07 -- 2020/08/17 ,更进一步细节完善

    (Stage3)2020/08/17 -- 至今 ,开源大家共同完善

下面将简略介绍实验设计和PPT设计相关内容和进度。

实验设计

实验所有相关步骤、代码等均在实际环境测试运行通过。

具体设计相关信息见下表:

序号 实验名 实验内容 完成度 页数 备注
ex0 HelloLinux 掌握后续实验所需Linux相关操作/知识 19
ex1 SettingUpEnvironment 搭建Spark/Hadoop分布式环境,三种方式可选 27
ex2 WordCount Spark单机版环境下基于相关数据集完成青年择偶观统计并进行可视化 10 还有相关py文件
ex3 KmeansI Spark分布式环境下基于iris 数据集完成K-Means聚类并进行可视化 10 还有相关py文件
ex4 CustomerForecast Spark分布式环境下基于相关数据集完成淘宝回头客预测并进行可视化 9 还有相关py文件

PPT 设计

PPT 设计尽量保证美观大方,素材来源广泛限于自身所学,可能有所错漏。

PPT 部分章节因为自身无法较好把握整体结构,最开始尚未完成设计,现在已基本完成。

  • 2020/09/17更新:每个实验也对应增加,实验PPT介绍 & 录音讲解

具体设计见下表:

序号 章节名 PPT内容 完成度 页数 备注
1 大数据概述 介绍大数据概念、来源、应用等 50
2 Hadoop与Spark简介 介绍Hadoop及Spark相关知识 69 已完成
3 大数据算法简介 介绍大数据相关算法,如:分类、聚类、关联规则、预测等 80
4 图计算与流计算 介绍大数据图计算、流计算相关知识 72
5 大数据应用介绍 介绍大数据相关应用,如:推荐系统、地震大数据、交通大数据、环境大数据等 53

阶段小结

  • 2020/02/10

    距离具体正式开工设计正好过去了20 天,刚刚完成Beta_V1.0 版本的我感觉头昏脑涨,不过接下来可以休息一两天啦。

    设计过程遇到一些困难,实验设计方面因为大部分都还在自己掌握的知识范围内,虽然有时候集群崩溃、调试不出结果让人很抓狂但不懂的Google 、百度、Stackoverflow ..总之还算解决了。对我而言最难的是PPT相关设计,虽然老师给了比较详细的大纲,但我自己对大数据一些知识都并不熟悉。具体设计时只好到处翻看博客,经常会为进度而焦虑,可能开学相关论文也要开始看了。

  • 2020/05/07

    隔了几个月终于把最后一部分课件(第二章:Hadoop&Spark简介)做完了,感觉还是相当耗脑的,主要还是如何把握整体框架要花费较多时间思考,其次就是画图和表格也较为耗费时间。

  • 2020/08/17

    基本上PPT和实验已经全部按老师的指导完成,PPT一些算法细节可能要补充参数说明。

  • 2020/09/17

    课程PPT和实验已正式投入使用,所有参加该门课程的同学都可一起加入完善。