一个实现多关键字的文本精确匹配搜的PHP扩展。
$ git clone git://github.com/erning/php-mss.git
$ cd php-mss
$ phpize
$ ./configure
$ make
$ cat sample.php | php -d "extension=modules/mss.so"
Round: 1
[
(安居客, 公司名称, 0)
(安居客, 公司名称, 15)
(二手房, 通用名词, 57)
(安居客, 公司名称, 122)
(二手房, 通用名词, 149)
(二手房, 通用名词, 263)
(安居客, 公司名称, 380)
]
...
- Aho-Corasick算法
- 实例可选持久化,即在多次请求间使用同一个实例,避免重复加载关键字。
- 持久实例自动过期
- 客户程序主动控制实例生命周期
- 可选Closure作为回调函数,匹配到关键字时立即调用。回调函数可中断查找过程。
启动网络服务
$ php -S 0.0.0.0:6060 -d "extension=modules/mss.so"
第一次访问
$ curl http://127.0.0.1:6060/example/example.php
Load dict
mss_creation: 2012-10-18 12:37:52
...
第二次访问
$ curl http://127.0.0.1:6060/example/example.php
mss_creation: 2012-10-18 12:37:52
...
第二次访问Load dict
没有了,mss_creation
不变。
当我们更新字典文件后再访问
$ touch example/example.dic
$ curl http://127.0.0.1:6060/example/example.php
Load dict
mss_creation: 2012-10-18 12:47:08
...
可以看到此时重新加载了字典,实例创建时间也是新的。
详见示例文件example/example.php
Licensed under the Apache License, Version 2.0
Copyright 2012 Anjuke Inc.
C library of Aho-Corasick Algorithm by multifast (LGPLv3).