windows修改config.py注意事项及其它
owencheung opened this issue · 0 comments
python 3.10.5
1.
raw_chat_corpus_root =r"E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus"
前面加'r'可以正确运行,否则出错找不到文件.
OSError: [Errno 22] Invalid argument: 'E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus\douban-multiturn-100w\train.txt'
E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus\qingyun-11w\12涓囧璇濊鏂欓潚浜戝簱.csv
中文文件名乱码, 纠正为"12万对话语料青云库.csv"再运行
FileNotFoundError: [Errno 2] No such file or directory: 'E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus\qingyun-11w\12万对话语料青云库.csv'
E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus\weibo-400w\stc_weibo_train_post E:\temp\chatcorpus\chinese_chatbot_corpus-master\raw_chat_corpus\weibo-400w\stc_weibo_train_response 2800000
....
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 0: invalid continuation byte
删除下面的还是不行
春夏秋冬 🌺🌻🍂🍁
求 不 到 雨 、 去 游泳 。 🏊🏊🏊🏊
修改weibo.py, 打开文件增加errors='ignore'
raw_corpus_post_file = codecs.open(raw_corpus_post_file_name, encoding=Config.encoding,errors='ignore')
raw_corpus_response_file = codecs.open(raw_corpus_response_file_name, encoding=Config.encoding,errors='ignore')
终于成功运行完成