tok_vocab이 나타내는 것이 무엇인가요??
SeungJun9164 opened this issue · 3 comments
chit-chat의 전체적인 구동 순서를 확인하였고 모델에 encoder, decoder를 확인하던 도중 확인을 할 수 없는 부분이 생겨 메일을 보내게 되었습니다.
class ChatDataset(Dataset):
def init(self, filepath, tok_vocab, max_seq_len=128) -> None:
self.filepath = filepath
self.data = pd.read_csv(self.filepath)
self.bos_token = '''
self.eos_token = '
self.max_seq_len = max_seq_len
self.tokenizer = PreTrainedTokenizerFast(tokenizer_file=tok_vocab,
bos_token=self.bos_token, eos_token=self.eos_token, unk_token='', pad_token='', mask_token='')
위의 코드에서 tok_vocab이 어떠한 것을 나타내고 있는지 모르겠습니다.
class ChatDataModule(pl.LightningDataModule):
def init(self, train_file, test_file, tok_vocab, max_seq_len=128, batch_size=32, num_workers=5):
ChatDataModule에서 쓰이는 tok_vocab과 동일한 것 같다고 생각하였고
dm = ChatDataModule(args.train_file, args.test_file, os.path.join(args.tokenizer_path, 'model.json'),
max_seq_len=args.max_seq_len,
num_workers=args.num_workers)
처음에는 tok_vocab으로 변수명이 정해져있어 Kobart의 vocab인줄 알고 넣어봤는데 제대로 작동되지 않았습니다.
ChatDataModel이 쓰인 dm을 출력해보았을 때 tokenizer\model.json 로 나오는 것을 봐선 경로를 나타내고 있는 것 같다고 판단하였습니다.
여기서 어떠한 경로? 어떠한 것?을 나타내고 있는지 확인이 어려워 막혀있는 상태입니다.ㅠㅠ
tok_vocab이 어떤한 것을 나타내고 있는지 도움을 주시면 감사하겠습니다.
질문 다시 주셔서 감사합니다.
argument로 넘겨주는
KoBART-chatbot/kobart_chit_chat.py
Line 51 in 791677e
README.md
의 --tokenizer_path emji_tokenizer
부분으로 , $KOBART_CHAT_HOME의 emji_tokenizer 경로가 됩니다.
README를 따라 해보시면 get_kobart_tokenizer(".")
를 수행하게 되는데요, $KOBART_CHAT_HOME에 emji_tokenizer 를 다운받게 되는걸 확인해보실 수 있을겁니다. 해당 path의 model.json을 로드하게 됩니다.
이해하였습니다. 감사합니다!!
해당 이슈는 클로즈 하겠습니다.