“#Chinese_match” 第一次在GitHub上提交代码 因为要把一大段重复的毛概题库好好整理出来 而且其中还有很多干扰项,包括英文和中文 所以写了一个代码用来分离和梳理 第一个是用来提取的 由于毛概的题目都以"【第**章】"开头,所以在一定程度上简化了匹配。(不需要正则) 第二个是用来去重的 设计思路是很简单的:把每个题目都作为一个个体,但每个题目的行数是不确定的。 所以对每一行判断:是否有“第几章” 如果有:显然是每个题目的开头,判断是否重复,并用head保存bool信息 如果没有:利用head来选择是否输出