从远程爬取数据 并 分析成词频表.即data目录指定目录下counter.json
分析本地 纯文件文件,分析生成词频表.
提供
- 已知命中率,求需要的单词量
- 已知单词量,求命中率
- 对比 两张频率表,生成 common数据 ,和各自独有的数据 保存在data根目录下
这里的例句算得上全是权威例句了. 而这个功能是一个不一样的功能. 它提供在线服务的可能.
DataBaseSystem: 需要增加一个内容: 遍历:获取文件路径和其他信息.
- words_lex.js 用于分词,给一个句子,就把词填好.能累记.提供保存 词频表功能.
- words_split.js 精细分词,用于混合词分词. 输入:混合单词. 输出 词组.
- reptile.js 爬虫父类,继承者实现两个回调.即可快乐玩耍.
- dataBaseSystem.js 本地缓存数据库,操作相关.
什么是更好的需求呢?
- 基于状态的回调处理
我们现在的爬虫还 比较原始.
回调方面 希望 能够升级成:
基于状态转换的回调
eg: a种情况 使用 b回调,c种情况,使用d回调. 注册回调函数.
s-a->b-c->d 这样就能兼容多种页面的需求了.现在有些页面:
https://developer.mozilla.org/zh-CN/docs/Web
就会出现这样的情况,现在是两级处理:1回调获取地址2回调获取页面信息. 但是会遇到情况: 获取页面信息中又会获得地址之类的...