微博数据展示与舆情监控系统后台API
- 该项目初期定位是数据展示和集群监控系统,最终希望在此基础上形成舆论监控系统
- 目前该项目处于数据展示和集群监控阶段
- 当前该项目的功能包括几个方面:
- 监测集群中大数据的数据量,并实时动态地在前端上展示出来
- 监测数据收集速率,即对爬虫进行监控,实时监控爬虫的速率,IP池状况等多方面内容,并对每天爬虫的速率都进行持久化
- 使用前后分离的REST架构风格构建系统
- 使用MySQL数据库进行持久化
- 使用Hadoop生态系统进行大数据的处理
- 使用HBase,MongoDB进行大数据的存储
- 使用TOMCAT8.x作为应用服务器
- 后端使用框架Spring进行事务管理和层次间的解耦
- 使用SpringMVC作为控制层框架
- 使用MyBatis作为持久层框架
- 使用Quartz进行定时任务的调度
- 使用SSH2和mongoDB包分别对操作系统和MongoDB进行监控
- 使用SpringBoot协助开发
- 使用Maven进行包管理
- 使用GIT进行版本控制
- 使用IntelJ IDEA作为后台开发使用的IDE
- 使用POSTMAN进行后端的模拟请求
- 后端API端口号8081
- MySQL数据库的访问使用了C3P0连接池
- 对操作系统、MongoDB、Redis的访问使用了自己构筑的多个连接池
项目中多处用到了定时器工具,主要用于爬虫速率统计和数据定时记录
- 每秒都会更新单秒的爬虫平均速率和五分钟内的爬虫平均速率
- 每天23:59:59会自动计算和保存当天的数据量到mysql数据库中