python3.6 demo_chatBot.py
wilddylan opened this issue · 5 comments
wilddylan commented
[Gensim]
'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
zake7749 commented
您是參照 word2vec-tutorial 進行 gensim 的詞向量訓練的嗎?
那麼將 Chatbot/RuleMatcher/rulebase.py 的第 213 行調整為 self.model = models.KeyedVectors.load(path)
應該就能正常運作了。
well707 commented
请问如果使用简体训练的词向量,可以使用吗,必须要用繁体中文训练词向量?
jaysharp commented
@zake7749 貌似应该将 Chatbot/RuleMatcher/rulebase.py 的213行调整为:self.model = models.Word2Vec.load(path),因为阁下的 word2vec-tutorial 教程里边用的就是这个。
zake7749 commented
感謝您的告知,
兩者會不一致是因為 gensim 約莫在年中時對 word2vec 模組進行了大改,
models.KeyedVectors.load_word2vec_format(path, binary=True)
是用於載入舊模型的方法,
由於去年我釋出的是詞向量是用舊方法導出的,
這個專案便一直以 load_word2vec_format(path, binary=True)
為主。
我剛剛提交了一個新的 commit ,現在應該能兼容兩者了。