新浪微博的数据获取及分析
本系统拟在获取新浪微博平台大量数据,并予以处理分析加工,进而展示一定热点趋势,反映社会现状,预测热度趋势。因此本系统分为数据获取、数据处理、数据分析、数据展示与相关配置、数据预测五个模块,具体分析如下: (1)数据获取:数据获取在本系统中是其他模块的前置条件,为有效全面的分析微博数据,要求Python爬虫程序必须高效广泛的获取数据。一方面需要优化爬虫效率,另一方面当爬虫效率优化到瓶颈时,亦需要权衡获取数据的广度和深度。在获取内容上需要获取微博的用户信息、用户发表的微博信息、微博对应的评论以及用户间关系[5]。 (2)数据处理:数据处理需要对获取数据中的文本(微博信息和评论信息)进一步分析加工,获取文段的情感积极程度,记录其中存在的话题标签、表情标签,清洗无价值字段数据信息,对清洗后的数据使用字词库做分词处理,获取记录关键词词频,并通过大量文本数据优化扩展词库。 (3)数据分析:由于获取数据和已处理数据分析都不可能达到全面,处理数据的时空复杂度远超数据获取,处理速度远慢于获取速度,因而不可能处理完所有已获取的数据,只能从一个点到一个随机的面获取随机数据、处理数据,所以应用统计学**从一部分数据分析整体数据,对之后数据展示模块尤为重要。 (4)数据展示与相关配置:此模块是本系统与用户/访客交互最直接的模块,用户可以查看数据获取、分析、处理后的可视化数据模型,管理员则拥有除此之外的系统配置、词库管理、查看日志等管理权限。展示数据对象主要包括:对当前系统总览及运行状态的首页监控与展示,用户分布、大V热度分析及大V形象数据模型展示、话题的热度及分析的微博数据展示,全网热词、表情的展示,基于分词算法中文数据处理展示等。系统整体以简化操作、便用查看为基本原则,采用扁平化、数据可视的设计风格。 (5)数据预测:数据预测也是系统核心需求之一。通过筛选出核心数据,用恰当数据训练相应的预测模型以期最大程度减少误差,推算出数据、热度变化可能出现的趋势。在本系统中拟采用训练一元线性回归模型的方法实现。
具体功能见 文档-毕业设计论文终稿