WordCounter: A Java repository from jordonyang

一. 解题思路

根据题意，可以将输入参数分为两类，一类是可选的操作参数，一类是文件路径或者与文件相关的匹配模式；而操作参数有分为两类，一类是用于进行分析计数的（-a, -l, -w, -c），另一类则是用于获取被分析对象的（-x, -s）。

对于分析计数的参数，它们的处理的对象和步骤是一样的，而且处理细节也比较接近，所以可以考虑将它们抽象成一系列的处理器，但是如果对于同一个待处理对象，将不同处理器对它的处理操作设计成并行独立的话，那么显然将增加多余的IO操作的成本，因为不管有多少个分析计数的参数，被处理的文件只需加载进主存一次就够了，因此我参考责任链设计模式将各个处理器的操作设计成了串行的。

这样看来，本项目大体上可以分为三步:

获取处理器链
获取待处理的文件集
将文件逐个扔给处理器链处理

二. 设计实现过程及代码说明

1. 处理器设计

先通过IDEA类图视觉来看一下处理器继承体系

在BaseProcessor中定义了一套处理文本内容的操作，子类处理器只需要重写父类的方法，对处理对象进行不同的信息分析和提取即可，结合枚举类Arguments 可以看到各个处理器与参数的联系，

留意到我将负责参数分析统计的处理器设置成了枚举类的成员属性，这样做的是为了利用枚举类单例属性的的特点实现对处理器对象的复用，而这在避免浪费Java堆内存空间和GC收集的时间的同时也带来了不便，即每处理完一个文件都需要将处理器用于统计的属性值还原到默认值，这一处理细节将在各个处理器的resetValue 方法中体现。

处理器主体方法功能介绍

process(String line): 以行为单位进行分析处理
printInfo(): 打印处理结果
resetValue(): 对处理器中用于统计或者状态标记的成员属性的值进行还原，为处理下一个文件做准备

2. 获取责任链

( 1 ) BaseProcessor的设计

讲述如何实现获取处理链之前有必要先介绍BaseProcessor 的成员

不难发现，一条处理链实际上就是一条BaseProcessor 类型的链表，由于Java继承和多态的支持，表中可以存放任何BaseProcessor 子类对象，每个处理器只需在执行完自己对被读取数据的解析和提取后将该数据交付给自己的下一个结点处理即可。

( 2 ) 参数解析

由于处理器是跟表示分析统计操作的参数一一对应的，所以要构造一条处理器责任链需要先进行参数解析

首先看入口程序，大概地对参数做一些判断，当输入格式正常的时候去调用ArgsPaser的parse方法

解析的大概过程

在argesMatcher 中定义枚举类与参数的映射规则
判断是否含有-x 参数，确定遍历参数数组的范围
- 有，说明文件通过选择器获得，参数数组的最后一个元素为有效地操作参数，而不是文件路径或匹配规则
- 无，最后一个参数为文件路径或匹配规则，在获取处理器的时候可以忽略
遍历参数数组，通过argesMatcher 获取枚举类中定义的单例处理器对象
通过改变处理器对象内部的引用指向，将各个处理器按序连成一条链表
返回处理链的头结点