Kakao Arena Shopping Category Classification

카카오 아레나 쇼핑카테고리 분류 대회를 참가할 당시에 사용한 ipython 코드입니다.

결과

데이터 전처리
1. h5py파일에서 사용할 feature만 추출
2. S, D 카테고리 레이블 중 -1 값의 데이터는 모두 제외
3. Konlpy(mecab) 전처리 ( 코드에 없음 )
4. 특정 단어 전처리 ( 코드에 없음 )
5. Product, maker, brand, model, image feature 사용
토큰화
1. Keras Tokenizer 사용 ( train, dev, test )
모델
1. 4개의 feautre Embedding
2. Embedding 결과와 image 데이터 Concatenate
3. 4개의 카테고리에 대한 모델을 각각 생성
순차모델
1. 상위 카테고리 예측 결과를 다른 모델 예측에 활용

띄어쓰기를 하지 않는 경우가 대부분
물건을 등록할 때 글자수 제한 때문인지 최대한 많은 정보를 넣으려고 하는 바람에 띄어쓰기를 아예 하지 않는 경우가 많음.
따라서, 중요한 의미를 지닌 단어가 소실되는 경우가 있음
텍스트, 문장의 의미를 내포하는 단어 외에 불필요한 단어 다수
문장의 의미와 상관없는 특정 미사여구로 전처리 필요 Ex) 무료배송, 할인, 특가, 세일, 본인의 아이디 등등