Pinned Repositories
-python-BAT-
针对常见的BAT公司中的大数据面试和笔试问题,列出解决思路,并使用python来实现
2016CCF_BDCI_Sougou
【源码以及PPT分享】2016CCF大数据与计算智能大赛:精准营销中搜狗用户画像挖掘
2016CCF_StateGrid_UserProfile
1st Place Solution for【2016CCF大数据竞赛 客户画像赛题(用户画像)】
2017-JDD-Global-Data-Explorer-Competition
2017京东金融全球数据探索者大赛(3rd place)
2018-CCF-BDCI-China-Unicom-Research-Institute-top2
2018-CCF大数据与计算智能大赛-面向电信行业存量用户的智能套餐个性化匹配模型联通赛-复赛第二名解决方案
2018-KUAISHOU-TSINGHUA-Top13-Solutions
2018**高校计算机大赛--大数据挑战赛 Top 13-Solutions
alibaba-middleware-race-preliminary
2016年阿里中间件性能挑战赛初赛题,RocketMQ+JStorm+Tair实时统计双11交易金额
alibaba-mom
2015 ali中间件比赛项目,1. 通信模块: 涉及到了消息架构设计,每一个主题分配1-2个队列,这个是可以横向增加,考虑到了一个主题有多个消费者订阅,而且还有过滤条件,为了负载均衡,对应的队列投递消息是根据随机数对队列数取膜完成的。以上是内存队列。 2. 持久化系统:因为考虑到机器坏掉,broker不可用等等原因导致的消息丢失,就需要每次收到的消息必须及时落盘,这个就是比赛优化的重中之重。为此设计了一个小型的文件系统,借鉴阿里的rocketmq. 用一个大的日志文件,一般1G大小每个,和内存队列的结构映射到实体队列。整个日志文件是顺序文件,每条消息固定大小,里面有对应的队列号,消息号,还有长度等等。这个方便恢复消息到实体队列用的。 同步刷盘,异步刷盘,持久化必须可靠,所以一般是同步刷盘到日志文件,日志文件定时异步刷盘到实体队列,实体队列里面是索引,消息的本体在日志文件里面。为了加快大面积的写入速度,用了内存映射:内存映射文件首先将外存上的文件映射到内存中的一块连续区域,被当成一个字节数组进行处理,读写操作直接对内存进行操作,而后再将内存区域重新映射到外存文件,这就节省了中间频繁的对外存进行读写的时间,大大降低了读写时间
aliMusic
🎼天池阿里音乐流行趋势预测大赛,项目中涵盖了从初赛到复赛的全部核心代码。复赛的聚合数据可以在百度网盘下载,更详细的思路介绍欢迎访问我的博客。
ansj_seg
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
bjgyl's Repositories
bjgyl/-python-BAT-
针对常见的BAT公司中的大数据面试和笔试问题,列出解决思路,并使用python来实现
bjgyl/2016CCF_BDCI_Sougou
【源码以及PPT分享】2016CCF大数据与计算智能大赛:精准营销中搜狗用户画像挖掘
bjgyl/2017-JDD-Global-Data-Explorer-Competition
2017京东金融全球数据探索者大赛(3rd place)
bjgyl/alibaba-mom
2015 ali中间件比赛项目,1. 通信模块: 涉及到了消息架构设计,每一个主题分配1-2个队列,这个是可以横向增加,考虑到了一个主题有多个消费者订阅,而且还有过滤条件,为了负载均衡,对应的队列投递消息是根据随机数对队列数取膜完成的。以上是内存队列。 2. 持久化系统:因为考虑到机器坏掉,broker不可用等等原因导致的消息丢失,就需要每次收到的消息必须及时落盘,这个就是比赛优化的重中之重。为此设计了一个小型的文件系统,借鉴阿里的rocketmq. 用一个大的日志文件,一般1G大小每个,和内存队列的结构映射到实体队列。整个日志文件是顺序文件,每条消息固定大小,里面有对应的队列号,消息号,还有长度等等。这个方便恢复消息到实体队列用的。 同步刷盘,异步刷盘,持久化必须可靠,所以一般是同步刷盘到日志文件,日志文件定时异步刷盘到实体队列,实体队列里面是索引,消息的本体在日志文件里面。为了加快大面积的写入速度,用了内存映射:内存映射文件首先将外存上的文件映射到内存中的一块连续区域,被当成一个字节数组进行处理,读写操作直接对内存进行操作,而后再将内存区域重新映射到外存文件,这就节省了中间频繁的对外存进行读写的时间,大大降低了读写时间
bjgyl/Baidu_Dogs
百度西交第三届大数据比赛Baseline(全国第4名)
bjgyl/BigData
BigData Project 大数据项目由浅入深
bjgyl/data-extract-clean-analysis
The project of data cleaning and data analysis based on MapReduce.
bjgyl/dianpingshop
大众点评商户数据爬虫
bjgyl/ebooks
我的大数据学习书单
bjgyl/face2face
基于netty的异步非阻塞实时聊天(IM)服务器。
bjgyl/HadoopAndSparkDataStudy
这是一本关于大数据学习记录的手册,主要针对初学者.做为一个老IT工作者,学习是一件很辛苦的事情.希望这本手册对帮助大家快速的学习与认识大数据(特指Hadoop Spark),为了不让初学者一下接触爆炸式的新概念,我们会以实验先行,概念跟进的方式进行课程学习,这样有利于大家快速进入状态,而不至于一直深陷逻辑概念出不来,但是每个人的学习方式不一样,仁者见仁智者见智吧.大家如果有意见请给我发邮件chu888chu888@qq.com — 楚广明
bjgyl/java-pearl
多年积累的基础算法等,使用java实现,包括:基础算法,大数据算法,JVM特性等示例程序集合,适合面试官选取面试题或者面试者准备面试阅读。
bjgyl/JData-Rank13
京东JData大数据比赛第13名的user模型
bjgyl/jdk-source-analysis
JDK 源码分析
bjgyl/learn_netty_source_code
Netty 源码分析教程
bjgyl/middleware-match
阿里中间件比赛系列代码,包括:第二届初复赛、第三届初复赛。
bjgyl/mytest001
测试
bjgyl/mytest003
bjgyl/netty-socketio-demo
netty-socketio demo
bjgyl/Note
常规Java工具,算法,加密,数据库,面试题,源代码分析,解决方案
bjgyl/OpenJDK-Research
OpenJDK(HotSpot JVM、Javac)源代码学习研究(包括代码注释、文档、用于代码分析的测试用例)
bjgyl/practical-programming-books
这里收录比较实用的计算机相关技术书籍,可以在短期之内入门的简单实用教程、一些技术网站以及一些写的比较好的博文,欢迎Fork,你也可以通过Pull Request参与编辑。
bjgyl/programming-video-tutorials
视频教程:Java, 大数据,云计算,Android,Hadoop,Docker,mysql,spark,CRM,OA...
bjgyl/reading-code-of-nginx-1.9.2
nginx-1.9.2源码通读分析注释,带详尽函数中文分析注释以及相关函数流程调用注释,最全面的nginx源码阅读分析中文注释,持续更新
bjgyl/roncoo-pay
龙果支付系统是国内首款开源的互联网支付系统,其核心目标是汇聚所有主流支付渠道,打造一款轻量、便捷、易用,且集支付、资金对账、资金清结算于一体的支付系统,满足互联网业务系统的收款和业务资金管理需求。
bjgyl/segmentfault-lessons
Segment Fault 在线讲堂 代码工程
bjgyl/springboot-learning-example
spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。
bjgyl/Tomcat-Research
Tomcat源代码学习研究(包括代码注释、文档、用于代码分析的测试用例)
bjgyl/Zhihu_bigdata
使用scrapy和pandas完成对知乎300w用户的数据分析。首先使用scrapy爬取知乎网的300w,用户资料,最后使用pandas对数据进行过滤,找出想要的知乎大牛,并用图表的形式可视化。
bjgyl/ZhihuTrend
知乎大数据分析与热点生成。