Pinned Repositories
-python-BAT-
针对常见的BAT公司中的大数据面试和笔试问题,列出解决思路,并使用python来实现
2016CCF_BDCI_Sougou
【源码以及PPT分享】2016CCF大数据与计算智能大赛:精准营销中搜狗用户画像挖掘
2016CCF_StateGrid_UserProfile
1st Place Solution for【2016CCF大数据竞赛 客户画像赛题(用户画像)】
2017-JDD-Global-Data-Explorer-Competition
2017京东金融全球数据探索者大赛(3rd place)
2018-CCF-BDCI-China-Unicom-Research-Institute-top2
2018-CCF大数据与计算智能大赛-面向电信行业存量用户的智能套餐个性化匹配模型联通赛-复赛第二名解决方案
2018-KUAISHOU-TSINGHUA-Top13-Solutions
2018**高校计算机大赛--大数据挑战赛 Top 13-Solutions
alibaba-middleware-race-preliminary
2016年阿里中间件性能挑战赛初赛题,RocketMQ+JStorm+Tair实时统计双11交易金额
alibaba-mom
2015 ali中间件比赛项目,1. 通信模块: 涉及到了消息架构设计,每一个主题分配1-2个队列,这个是可以横向增加,考虑到了一个主题有多个消费者订阅,而且还有过滤条件,为了负载均衡,对应的队列投递消息是根据随机数对队列数取膜完成的。以上是内存队列。 2. 持久化系统:因为考虑到机器坏掉,broker不可用等等原因导致的消息丢失,就需要每次收到的消息必须及时落盘,这个就是比赛优化的重中之重。为此设计了一个小型的文件系统,借鉴阿里的rocketmq. 用一个大的日志文件,一般1G大小每个,和内存队列的结构映射到实体队列。整个日志文件是顺序文件,每条消息固定大小,里面有对应的队列号,消息号,还有长度等等。这个方便恢复消息到实体队列用的。 同步刷盘,异步刷盘,持久化必须可靠,所以一般是同步刷盘到日志文件,日志文件定时异步刷盘到实体队列,实体队列里面是索引,消息的本体在日志文件里面。为了加快大面积的写入速度,用了内存映射:内存映射文件首先将外存上的文件映射到内存中的一块连续区域,被当成一个字节数组进行处理,读写操作直接对内存进行操作,而后再将内存区域重新映射到外存文件,这就节省了中间频繁的对外存进行读写的时间,大大降低了读写时间
aliMusic
🎼天池阿里音乐流行趋势预测大赛,项目中涵盖了从初赛到复赛的全部核心代码。复赛的聚合数据可以在百度网盘下载,更详细的思路介绍欢迎访问我的博客。
ansj_seg
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
bjgyl's Repositories
bjgyl/Big-Data-Resources
大数据/数据挖掘/推荐系统/机器学习相关资源
bjgyl/concurrent
Java Concurrency in Practice
bjgyl/DataMiningAlgorithm
数据挖掘18大算法实现以及其他相关经典DM算法
bjgyl/demo_11.11_storm-spark-hadoop
hadoop_storm_spark结合实验的例子,模拟淘宝双11节,根据订单详细信息,汇总出总销售量,各个省份销售排行,以及后期的SQL分析,数据分析,数据挖掘等。 --------大概流程------- 第一阶段(storm实时报表) 第二阶段(离线报表)第三阶段(大规模订单即席查询,和多维度查询) 第四阶段(数据挖掘和图计算)
bjgyl/netty
学习并构建netty框架
bjgyl/netty-chat
使用Netty实现IMServer,支持Tcp和WebSocket实现。
bjgyl/nettybook2
李林峰老师编写的netty权威指南(第二版)对应的源码,已经maven化
bjgyl/storm-starter
Learn to use Storm!
bjgyl/tianchi_bigdata
阿里2015年天池大数据比赛,采用移动窗口采样加随机森林学习