- Hadoop分布式数据分析系统概述
- Hadoop深入浅出
- HDFS fs命令
- HDFS架构
- RPC(Remote Procedure Call远程程序调用)及HDFS的读写过程
- Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries
- MapReduce原理
- MapReduce执行过程
- 数据类型与格式
- Writable接口与序列化机制
- Partitioner编程
- 自定义排序编程
- Combiners编程
- 常见的MapReduce算法
- 倒排索引
使用hive(表描述在hive数据库的TBLS表中,表中的字段在COLUMNS_V2表中,表的id在CDS表中,存储HDFS上的路径在SDS表中)
-
-
Linux 文件/目录管理类命令
- Linux的cd命令(文件系统目录切换)
- Linux的ls命令(显示文件和目录信息)
- Linux的touch命令(创建一个空文件)
- Linux的cp命令(复制文件)
- Linux的mv命令(重命名文件)
- Linux的rm命令(删除文件)
- Linux的ln命令(为某一个文件在另外一个位置建立一个同步的链接)
- Linux的pwd命令(显示工作目录)
- Linux的scp命令(跨主机之间的文件和目录的复制)
- Linux的mkdir命令(创建目录)
- Linux的rmdir命令(删除空的目录)
- Linux的tree命令(列出指定目录下的所有文件,包括子目录里的文件)
-
Linux 文件编辑类命令
- Linux的cat命令(显示文件内容)
- Linux的more命令(以一页一页的形式显示)
- Linux的less命令(随意地浏览文件)
- Linux的tail命令(从指定点开始将文件写到标准输出)
- Linux的head命令(显示文档结尾内容)
-
Linux 磁盘管理类命令
- Linux的df命令(显示指定的文件系统的可用空间等信息)
- Linux的du命令(显示目录或文件的大小)
-
Linux 系统管理类命令
进程是正在执行的程序实例,执行程序时,内核会将程序代码首先加载到虚拟内存,为程序变量分配内存空间,并为进程建立 记账数据结构,用于记录与进程相关的各种信息,如进程ID,用户ID,组ID以及进程的各种状态,运行或终止状态。
- Linux的ps命令(列出系统中当前运行的那些进程)
- Linux的kill命令(用于杀掉执行中的程序或工作)
- Linux的top命令(实时动态显示 Linux进程 的动态信息)
- Linux的free命令(显示内存状态)
- Linux的clear命令(清除控制台内容)
- Linux的wc命令(统计指定文件中的字节数、字数、行数,并将统计结果显示输出)
- Linux的stat命令(显示inode内容)
- Linux的which命令(查找文件)
- Linux的whoami命令(显示自身用户名)
-
Linux 网络类命令
- Linux的scp命令(跨主机之间的文件和目录的复制)
- Linux的netstat命令(检验主机端口的网络连接情况)
-