优达学城数挖掘求职直通班课程作业合集
优达学城提供了 Google Play 商店中一些 App 的数据,项目任务是对这个数据进行探索,通过数据分析的方式发现有趣的洞察。通过提出感兴趣的问题,利用已有的数据进行分析,调用本课中学到的数据分析常用函数,计算数据中的统计数据和让数据可视化,并得出结论。
该项目需要整理 (以及分析和可视化) 的数据集是推特用户 @dog_rates 的档案, 推特昵称为 WeRateDogs。WeRateDogs 是一个推特主,他以诙谐幽默的方式对人们的宠物狗评分。这些评分通常以 10 作为分母。但是分子则一般大于 10:11/10、12/10、13/10 等等。为什么会有这样的评分?因为 "They're good dogs Brent." WeRateDogs 拥有四百多万关注者,曾受到国际媒体的报道。
此项目将使用 R 并运用探索性数据分析来探索一个变量或多个变量之间的关系,以及在一个选定的数据集中探索分布、异常值和反常现象。
此项目将运用监督学习的技巧对美国人口普查数据进行分析,帮助 CharityML(一家虚拟的慈善机构)发现最有可能向他们捐款的人士。首先探索这些人口普查数据,了解数据的记录结构。接着,应用一系列的转换和预处理技巧操纵数据,使其变成可处理的格式。然后,选择几个监督学习器并将它们应用到数据上,看看哪个学习器最能满足需求。之后,优化所选的模型并输出解决方案。最后,探索所选的模型和背后的预测原理,查看其处理给定的数据时的效果。
此项目将会从头开始构建一个神经网络,基于真实的数据集来进行预测!通过从零开始搭建神经网络,帮助学生更好地理解梯度下降、反向传播等概念。这些都是我们以后接触更高级工具(如 Tensorflow)前必须掌握的重要概念。同时,学生也将了解到,如何运用这些网络来完成实际生活中的预测问题!
此项目需要分析用户与 IBM Watson Studio 平台上的文章进行的互动,并向他们推荐你认为他们可能会喜欢的文章。创建一个推荐系统,向特定的用户显示最相关的文章。为了判断要向每个用户显示哪些文章,你需要对 IBM Watson Studio 平台上的数据展开研究。
此项目需要使用spark建立模型预测Sparkify应用用户流失率,预测客户流失率是数据科学家和分析师在面向消费者的一类公司中经常遇到的一项具有挑战性的问题。同时,能用 Spark 高效处理大数据集是数据领域职位急需的一种能力。