📚 OpenTEA101: 一个致力于实现《数据科学与工程导论》课程中的各个单元的实验的实验手册。本仓库包括从数据获取、预处理、特征工程到模型构建与评估的完整流程。欢迎各位数据科学爱好者、研究者和开发者共同参与与贡献!
本仓库目标是用“开源生态数据分析”中的各种任务作为《数据科学与工程导论》课程中的各个单元的实验;内容可参照开源生态分析挖掘任务 - 数据科学系列课程规划
数据分析流程:
- 问题定义:明确需要解决的问题或目标,并确定分析的范围和目标指标。
- 数据收集:收集相关数据,可以是从内部数据库、外部数据源、传感器等获取。确保数据的准确性和完整性。
- 数据预处理:对收集到的数据进行清洗、去除异常值、处理缺失值等,使数据达到可用状态。
- 数据探索:对数据进行可视化和统计分析,探索数据之间的关系、趋势和规律。可以使用统计图表、描述性统计和数据挖掘技术。
- 特征工程:根据问题的需求和数据的特点,选择合适的特征变量,并进行特征提取、转换和选择,以提高模型的预测性能。
- 数据建模:根据问题的性质选择适当的数据建模技术,如机器学习、统计建模等,构建预测模型或分类模型。
- 结果评估:对建立的模型进行评估和验证,使用合适的指标评估模型的性能和准确度,如精确度、召回率、F1值等。
- 结果解释与展示:将分析结果通过可视化方式展示,解释模型的预测结果,给出结论和建议,帮助决策者理解和应用分析结果。可以使用报告、图表、数据可视化工具等方式呈现。
通过本仓库,我们的目标是设计和实现一个模型,以准确地分类和识别GitHub上的机器人账户。这是一个分类问题,我们的数据集位于data/github_bot_label_data.csv
,其中仅包含标签。
目前实验的问题是:
题目 | 任务 | 目录 |
---|---|---|
机器人账号识别 | 分类任务 | bot_detection |
开源社区发现 | 聚类任务 | community_discovery |
预测项目star数 | 回归预测任务 | predict_star |
开源社区评论情感分析 | NLP/分类任务 | emotion_analysis |
对开发者推荐感兴趣的项目 | 推荐任务 | recommend_project |
实验流程如下:
数据收集 - 01data_collection.ipynb
数据预处理 - 02data_preprocessing.ipynb
数据探索 - 03data_exploration.ipynb
特征工程 - 04feature_engineering.ipynb
数据建模 - 05data_modeling.ipynb
结果评估 - 06result_evaluation.ipynb
我们诚挚地欢迎所有对此研究感兴趣的研究者、开发者和数据科学家加入我们。无论是通过提供数据、优化模型还是提供新的见解,您的每一份贡献都对我们非常重要。
联系方式 如有任何疑问或建议,请通过 issue 提交或直接联系我们。
感谢您对 Data Science Experiment Handbook 的关注和支持!🌟