##################################################################################### ## You can connect the author via [airlvchuan@sina.com]. ### ## Written in 2015-4-17. ### ##################################################################################### 这里要说明每个文件夹的作用和各个文件的功能。 文件夹 bloomFilter 是布隆过滤。他的作用是实现爬虫的时候不会爬到相同的工作。 bloomFilter.py 是主要实现去重的主要代码。 __init__.py 外面程序引用时必要的,里面可以没有功能代码。 savedHash.txt 存储的是每个工作产生的 hash 值,程序再次运行的时候 会再次读取,一个工作产生7个哈希。 其他不重要 文件夹 functionTest 是当时测试多线程用的,如果你没看到,那么也没关系。 文件夹 Data nlpir userDict 是分词模块的,本来是在同一个文件夹ICTCLAS_Python里面的,为你便于其他程序调用,而拿出来的。不这样的话要改他们里面程序的一些路径,不方便。 文件夹 courses 里面是工作对应的课程。 courses.txt 是全部课程。 alias_recovery.txt 是一些课程的别名(简写,别名等) ####################################################################### 文件 mainNlpir.py 是分词程序,他调用了文件夹 Data nlpir userDict的模块。 文件 jobDB.py 是关于mysql数据库的链接操作程序。 文件 spider.py 是爬虫的代码。 文件 workManager.py 是关于实现线程池爬虫的主要模块的代码。 文件 minaThreadPool.py 是把文件 spier.py 和 workManager.py 整合在一起的代码,实现了线程池。 其他没说明的文件可能实测试时候用的或者是某些文件的备份。