hightman/scws

分词错误可以通过修改词库来解决吗

Opened this issue · 2 comments

**共产党的初心就是为人民谋幸福

这句话里面,为\人民 被错误的分为了 为人\民

我看了一下自定义词库,里面的记录如下
为人 14.60 4.96 v
人民 14.76 4.41 n

请问是否可以通过修改TF或IDF来解决这个问题?如果可行的话,需要如何调整?

谢谢

$ scws -c utf8 -d dict_jieba1.xdb -N -i "**共产党的初心就是为人民谋幸福"
**共产党 的 初心 就是 为 人民 谋 幸福

不過我也遇到分詞不對的情況:
官網 ( http://www.xunsearch.com/scws/demo/v48.php ) 上的分詞(段落取自雅虎香港):

屯 門 黃 金 海岸 酒店 可以 講 是 香港 最美 的 臨 海 酒店 之一 , 酒店 內 的 聆 渢 咖啡 廳 更是 chill 住 食 的 理想 地 點 , 室 內 用餐 區 氣 氛 夠 悠 閒 , 而且 亦 可以 選 擇 戶 外 用餐 , 涼 住 海 風 食 buffet 就 更 relax 更 enjoy !

我用jieba詞庫分析的結果:

$ scws -c utf8 -d dict_jieba1.xdb -N -i "屯門黃金海岸酒店...更relax更enjoy!"

屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 室 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !

或是

屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 戶 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !

不論"室外用餐"還是"戶外用餐"​使用jieba詞庫都分錯了。