zake7749/Chatbot

python3.6 demo_chatBot.py

wilddylan opened this issue · 5 comments

[Gensim]
'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

您是參照 word2vec-tutorial 進行 gensim 的詞向量訓練的嗎?

那麼將 Chatbot/RuleMatcher/rulebase.py 的第 213 行調整為 self.model = models.KeyedVectors.load(path) 應該就能正常運作了。

请问如果使用简体训练的词向量,可以使用吗,必须要用繁体中文训练词向量?

只針對意圖分類這一塊的話,
以簡體訓練的詞向量是可以正常使用的,
但如 #28 所提到的,
您必須視自己的需求調整模板的內容。

@zake7749 貌似应该将 Chatbot/RuleMatcher/rulebase.py 的213行调整为:self.model = models.Word2Vec.load(path),因为阁下的 word2vec-tutorial 教程里边用的就是这个。

感謝您的告知,

兩者會不一致是因為 gensim 約莫在年中時對 word2vec 模組進行了大改,
models.KeyedVectors.load_word2vec_format(path, binary=True) 是用於載入舊模型的方法,
由於去年我釋出的是詞向量是用舊方法導出的,
這個專案便一直以 load_word2vec_format(path, binary=True) 為主。
我剛剛提交了一個新的 commit ,現在應該能兼容兩者了。