python3.6 demo_chatBot.py

Question

python3.6 demo_chatBot.py

wilddylan opened this issue 7 years ago · 5 comments

wilddylan commented 7 years ago

[Gensim]
'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

Answer 1 · 2017-07-21T11:21:11.000Z

您是參照 word2vec-tutorial 進行 gensim 的詞向量訓練的嗎?

那麼將 Chatbot/RuleMatcher/rulebase.py 的第 213 行調整為 self.model = models.KeyedVectors.load(path) 應該就能正常運作了。

Answer 2 · 2017-09-13T10:09:56.000Z

请问如果使用简体训练的词向量，可以使用吗，必须要用繁体中文训练词向量？

Answer 3 · 2017-09-13T17:11:04.000Z

只針對意圖分類這一塊的話，
以簡體訓練的詞向量是可以正常使用的，
但如 #28 所提到的，
您必須視自己的需求調整模板的內容。

Answer 4 · 2017-09-26T07:01:11.000Z

@zake7749 貌似应该将 Chatbot/RuleMatcher/rulebase.py 的213行调整为：self.model = models.Word2Vec.load(path)，因为阁下的 word2vec-tutorial 教程里边用的就是这个。

Answer 5 · 2017-09-26T16:49:02.000Z

感謝您的告知，

兩者會不一致是因為 gensim 約莫在年中時對 word2vec 模組進行了大改，
models.KeyedVectors.load_word2vec_format(path, binary=True) 是用於載入舊模型的方法，
由於去年我釋出的是詞向量是用舊方法導出的，
這個專案便一直以 load_word2vec_format(path, binary=True) 為主。
我剛剛提交了一個新的 commit ，現在應該能兼容兩者了。