P.293_"6. 훈련세트의 정수를 영단어로 변환하기" 관련 문의 건
Opened this issue · 3 comments
HAYJJAY commented
안녕하세요 해선님, 독학으로 공부하고 있는 학생입니다.
해당 페이지 보니깐 -3을 제외하고 보시던데, 처음에는 0~2는 의미가 없는 숫자라고 얘기하셔서 그런가보다 라고 생각하다가, 코드를 하나씩 치면서 보니깐 어휘사전을 내려받고 나서는 0,1,2 모두 다른 단어로 맵핑이 되어있어서 지금 코드에서 -3을 하면 전혀 다른 의미의 단어들이 추출되는 거 같습니다.
이 부분 다시 한번 봐주시기 바랍니다.
여러번 문의 드렸는데 꼭 답변 부탁 드려요
rickiepark commented
안녕하세요. 박해선입니다.
여러분 문의 주셨다니 제가 미처 답을 못드렸다면 죄송합니다.
말씀하신 부분 확인해서 답변 드리겠습니다.
감사합니다.
rickiepark commented
안녕하세요. imdb 데이터셋은 0, 1, 2 가 각각 패딩, 시작, OOV 로 약속되어 있습니다.
따라서 -3을 빼야 어휘사전(get_word_index()에서 반환된 해시)과 일치합니다.
텐서플로 코드를 참고하세요.
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/keras/datasets/imdb.py#L144
예를 들어 imdb.load_data(num_words=10)
로 데이터를 받으면 대부분이 2(OOV)로 채워진 배열이 반환됩니다.
궁금한 점 있으면 알려 주세요.
감사합니다.
HAYJJAY commented
안녕하세요.
데이터 셋 자체가 그렇게 만들어놨다는 거군요. 이해됐습니다.
답변주셔서 정말 감사합니다.
독학으로 공부를 하려니 어디에 물어볼 곳도 없고 막막했는데 도움 주셔서 감사합니다!!
종종 궁금한 점이 생기면 여쭤볼테니 답변 부탁 드리겠습니다!
감사합니다.
2020년 3월 10일 (화) 오후 7:16, Haesun Park <notifications@github.com>님이 작성:
… 안녕하세요. imdb 데이터셋은 0, 1, 2 가 각각 패딩, 시작, OOV 로 약속되어 있습니다.
따라서 -3을 빼야 어휘사전(get_word_index()에서 반환된 해시)과 일치합니다.
텐서플로 코드를 참고하세요.
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/keras/datasets/imdb.py#L144
예를 들어 imdb.load_data(num_words=10)로 데이터를 받으면 대부분이 2(OOV)로 채워진 배열이 반환됩니다.
궁금한 점 있으면 알려 주세요.
감사합니다.
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#1?email_source=notifications&email_token=AMTZ326PHSPTCPSL5U3IIK3RGYHQ5A5CNFSM4LEWNWC2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEOKZ5HI#issuecomment-597008029>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AMTZ326JDM5RNYHJR5CLGNTRGYHQ5ANCNFSM4LEWNWCQ>
.