rickiepark/do-it-dl

P.293_"6. 훈련세트의 정수를 영단어로 변환하기" 관련 문의 건

Opened this issue · 3 comments

안녕하세요 해선님, 독학으로 공부하고 있는 학생입니다.

해당 페이지 보니깐 -3을 제외하고 보시던데, 처음에는 0~2는 의미가 없는 숫자라고 얘기하셔서 그런가보다 라고 생각하다가, 코드를 하나씩 치면서 보니깐 어휘사전을 내려받고 나서는 0,1,2 모두 다른 단어로 맵핑이 되어있어서 지금 코드에서 -3을 하면 전혀 다른 의미의 단어들이 추출되는 거 같습니다.

이 부분 다시 한번 봐주시기 바랍니다.
여러번 문의 드렸는데 꼭 답변 부탁 드려요

안녕하세요. 박해선입니다.

여러분 문의 주셨다니 제가 미처 답을 못드렸다면 죄송합니다.
말씀하신 부분 확인해서 답변 드리겠습니다.

감사합니다.

안녕하세요. imdb 데이터셋은 0, 1, 2 가 각각 패딩, 시작, OOV 로 약속되어 있습니다.
따라서 -3을 빼야 어휘사전(get_word_index()에서 반환된 해시)과 일치합니다.
텐서플로 코드를 참고하세요.
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/keras/datasets/imdb.py#L144

예를 들어 imdb.load_data(num_words=10)로 데이터를 받으면 대부분이 2(OOV)로 채워진 배열이 반환됩니다.

궁금한 점 있으면 알려 주세요.
감사합니다.