中文敏感词库
近日,google在其中文搜索引擎中加入了敏感词提醒功能。
网站开发中也许用得到这个敏感词库;github上似乎也没有这个repository;再加上可以对那些奇葩的敏感词,例如:“麦当劳”,不可思议的大笑一番。 所以建个库也没啥坏处。
数据格式方面,JSON和XML比较通用点,就选比较简单的JSON格式好了,noSql数据库也能用的上。
对于敏感词,暂时想到两个属性,一个当然是名字,还有一个是最近被验证为敏感的时间,因为词库肯定是不断更行的,所以这个时间可能还是需要的,过期的词可能影响到正常使用。 其他属性欢迎客官们提供思路。 所以数据格式暂时是这个样子:
var ouchWordsCN = [
{
word : String, //该词
lastVerifiedDate : "yyyy-mm-ddThh:mm:ss" //
},
{
word : ...,
lastVerifiedDate : ...
},
{
...
},
...
]
可以使用javascript解析时间,转换成自 1 January 1970 00:00:00 UTC 以来的毫秒数;也可以将该毫秒数使用toJSON,转换回字符串:
Date.parse(lastVerifiedDate);//to milliseconds
(new Date()).toJSON();//to string
欢迎推送已知的词库。我先把麦当劳加上去。
如果因为该项目影响到了github在国内的交通,或者让有关部门看得心头作呕,在issue list发条问题,我就义不容辞马上删掉它。
Please don't kuashen me
For English Users
This is a part of China, but just a part.