/native-bayesian

spam filter

Primary LanguagePHPMIT LicenseMIT

2019-12-30

百度f参数工具复刻版 1.01

  1. 删除 canonical
  2. 精简代码
  3. 修复搜索查询
  4. 修改抓取百度搜索方法
  5. 删除百度分享,百度喜欢,评论

2019-04-09

等上证指数涨到3400点再更新

2019-03-28

朴素贝叶斯方法过滤擦边词 1.04

精简1%代码量

2019-03-26

朴素贝叶斯方法过滤擦边词 1.03

精简10%代码,优化判断逻辑

图中杂色为各类敏感词,绿圈为朴素贝叶斯方法计算所有关键词概率,屏蔽圈内虽然造成大量误判,但圈外面积遗漏擦边词数量已经可以靠人工复审杜绝

2019-03-25

朴素贝叶斯方法过滤擦边词 1.02

  1. 改善细节
  2. 增加正面负面词典样式
  3. 修订华文描述
  4. 增加不同数量华文词典,根据电脑或服务器本身内存选择适当大小词典

另外增加了2014年03月07日百度f参数工具1.00复刻版

2019-03-21

朴素贝叶斯方法过滤擦边词 1.01

  1. 增加 607330 个华文词典
  2. 词典文件改为变量配置
  3. 优化更新词典逻辑

2019-03-20

朴素贝叶斯方法过滤擦边词 1.0

前言

许多新手认为得到百度搜索结果参数分析工具代码(mit 许可证)即达到目标,而实际是二万五千里长征起点。

百度搜索结果参数分析工具本身只有 200kb,需要天天手动搜集删除垃圾词。解铃还须系铃人,我另外开发了按照网站流量百分比过滤敏感词方法。

不过鄙人抽动症日益严重,敲代码时光如同沙漏倒放越来越少,希望在有生之年实现用这个过滤器净化互联网目标。