/book-hadoop-hacks

the source code of <Hadoop Hacks>专家使用的实践技巧

Primary LanguageJavaGNU General Public License v2.0GPL-2.0

hadoop-hacks

the source code of 《Hadoop Hacks》中文版,专家使用的实践技巧
Now,Only has the Chapter 2:应用程序开发技巧

Links:
1.《Hadoop Hacks》(中文版)
http://www.oreilly.com.cn/index.php?func=book&isbn=978-7-5123-4635-2
2.《Hadoop Hacks》――プロフェッショナルが使う実践テクニック
http://www.oreilly.co.jp/books/9784873115467/
目录

前言

第1章 系统架构/运用技巧
运行HDFS环境的参数
运行MapReduce环境需要的参数
总结
文件描述符的设置
Java的安装
总结
本技巧中介绍的HA的构成
HA集群的构建过程
疑难解答
总结
可以获取的统计信息
总结
关于CDH3同一版本间的更新总结
准备
理解操作
使用Oracle的操作确认
总结
Sqoop的PostgreSQL联合功能
在PostgreSQL中的使用
PostgreSQL联合的挑战
总结
什么是Azkaban
Azkaban的安装
总结
作业的定制
总结

第2章 应用程序开发技巧
将Hadoop配置文件拷贝到外部应用程序
从应用程序操作MapReduce
总结
什么是InMapperCombiner
InMapperCombiner的实现方法
总结
自定义Writable类型主要分为两种
如何生成一个Writable接口的子类
总结
自定义Partitioner的实现方法
总结
什么是DistributedCache
DistributedCache的使用
总结
自定义CombineFileInputFormat的实现
自定义CombineFileInputFormat的使用
总结
获取MRUnit Jar文件
Map的测试
Reduce的测试
测试MapReduce作业
总结
生成自定义Writable
生成GroupingComparatorClass
生成PartitionerClass
生成SortComparatorClass
设置各个Comparator
总结
数据的内容
Map端连接的代码
输出结果
单独读入文件进行连接
总结
数据的内容
Map的定义
Reduce的定义
作业的定义
输出结果
总结
定义作业
总结
InputFormat类
OutputFormat类
总结
Cassandra的hadoop程序包内容
Map类
Reduce类
定义作业
总结
获取文件系统信息
操作HDFS的API
总结
分析的要点
用计数器可以确认的项目
处理结束后的确认方法
经过一定时间后的确认方法
作业历史的管理方法
总结
Hadoop中可以处理的压缩格式
Hadoop中处理lzo压缩的准备
在MapReduce程序中处理压缩文件
在Hive中处理压缩文件
总结

第3章 HBase技巧
importtsv工具
completebulkload工具
总结
sqoop import
自定义PutTransformer
总结
用于HFileOutputFormat的Mapper
作业的设置
总结
Java API
HBase shell
总结
什么是协处理器
Observer
Endpoint
总结
创建自定义Filter
配置自定义Filter
总结
export工具
import工具
总结
复制机制
配置
数据的确认
总结

第4章 Hive技巧
SQL语句和HiveQL语句的书写方法的不同
SELECT句中不存在的列不能排序
NULL的处理
ROWNUM关联
总结
标点字符、带圈字符的存在
PK的存在
加载数据
Join时的数据保持方法
WHERE句中的比较条件
置换处理和UDF
key数和Out Of Memory
总结
处理单位
ORDER BY语句和SORT BY语句
输出中间连接表
MapReduce任务不发生的处理
一次连接多个表
总结
查询高速化的探讨
总结
Hive的用户定义函数
UDF的安装
UDAF的实现
使用用户定义函数
总结
什么是SerDe
文本数据的情况(使用RegexSerDe)
文本数据的情况(使用CSV用的非标准SerDe)
结构化/二进制数据的场合(使用JSON用的非标准SerDe)
总结
使用TRANSFORM句
使用UDAF
总结
使用注释
使用模式
使用锁定机制
总结
流程
使用方法
总结
Hive的日志的种类
通过Hive会话日志可以确认的内容
总结
Hive-HDFS-RDBMS的关系
向Hive的直接导入
文件形式和直接导入的关系
列指定·WHERE条件指定
指定了Hive的分区key的导入
总结
Hive→Oracle的差异数据的交换
总结

第5章 Pig技巧
进行LOAD处理要实现的项目
进行STORE处理需要实现的项目
在一个UDF中实现LOAD和STORE的处理
总结
数据的保存方法
MapReduce作业的评价方法
用户单独的处理
输出的日志
总结
Pig的用户定义函数
用户定义函数中可以使用的数据类型
用户定义函数的实现和使用方法
总结
Java中的PigLatin嵌入方法
执行范例
总结
DESCRIBE:确认数据结构
EXPLAIN:确认MapReduce的执行计划
DUMP:显示处理内容
总结
数学函数
字符串操作函数
总结

第6章 Mahout技巧
可以做什么
推荐(Recommendation)
聚类(Clustering)
分类(Classification)
其他
总结
安装
执行方法
总结
总结
输入数据的形式
处理的执行
执行命令的内容
与文本数据的对应
总结
输入数据
执行关联分析
执行结果文件
总结
从学习(预测模型)到预测的过程
预测模型的构建和应用
总结
分布式并行化的必要性
随机森林的分布式并行图像
In-memory模式
总结
应用例子
创建方法
创建驱动程序
使用驱动程序
总结
K平均法
输入数据的形式
输入数据的变换
执行kmeans
获取执行结果
结果文件的内容
总结

第7章 ZooKeeper技巧
客户端程序库
简单的API
与ZooKeeper的连接和断开
znode的创建
确认znode的存在
从znode读取数据
znode中写入数据
删除znode
获取子节点的列表
总结
认证方案
ACL和权限
ACL的设置(setACL)
获取ACL(getACL)
总结
操作
总结
启动
连接
操作数据
尝试监视
完成
总结
体系结构
Rest服务器的启动
总结
C客户端程序库
总结
什么是tickTime?
设置方法
设置其他tickTime影响的项目
以其他tickTime为基准进行的处理
总结
什么是ZAB
使用ZAB的ZooKeeper内部处理
两阶段提交
总结
构成ensemble
leader选出运算法则
总结
状态
总结
分组
权重
总结
分布并行队列的实现
总结
什么是BookKeeper
BookKeeper的基本操作
尝试BookKeeper
有效利用BookKeeper
总结
实现介绍
使用方法
使用示例
总结