/Portfolio

Primary LanguageJupyter Notebook

Portfolio

[ MUSINSA PROJECT ]

- MUSINSA_PROJECT_PPT



#1. 상품별 고유 번호 크롤링 후 해당 상품들의 리뷰와 별점 크롤링 : ReviewCrawling_from_each_item_number_based

  [ 별점 : 100 / 80 / 60 / 40 / 20 ] == [ 별점 : 5점 / 4점 / 3점 / 2점 / 1점 ]
Need in #1 Files File Name LINK
1. reset_star_train.tsv DATA
2. reset_star_test.tsv DATA



#2. 긍정 / 부정 사전 만들기 & 모델 학습 : Making Dicctionary_Positive,Negative - Model_Training

Need in #2 Files File Name LINK NOTES
1. [Org]_Musinsa_Standard_review_Label.csv DATA Raw Crawling Data
2. Total(Pos+Neg)_Word_Counts.csv DATA ipynb file 'df_1' 내용 참조
3. 1000_Total(Pos+Neg)_Word_Counts.csv DATA ipynb file 'df_2' 내용 참조
4. [HandWork]SCORE_Intersection_3_to-3.csv DATA df_1,df_2 Intersection Words
5. [Using_For_Training]_Review_Dataset.csv DATA For Training

[ 참조 ]




#3. 큐레이팅 글(전문성) 과 상품 상세 설명(전문단어)을 비교하여 상품 추천 시스템 제작 [ Using MusinsaStandard Items ]

NO. File Name LINK NOTE
1-1. TotalPage_Crawling&Refine&Tokenize DATA - MusinsaStandard 상품 전체 상세설명 크롤링 + 토큰화.
- 큐레이팅 글과의 유사도 비교를 위함.
1-2. Curating_TotalDate&CuratingNumber DATA - 2021년 기준 큐레이팅 작성 날짜 및 큐레이팅 번호 크롤링 + 데이터 정제.
- 2021년 분기별로 큐레이팅 글 및 번호 추출을 위한 전처리 작업.
1-3. CurationgQuarterly_Remove_StopWords
For_this_ipynb_[Download]
DATA - 2021년 큐레이팅 각 분기별 불용어 제거
- 상품 상세설명 토큰화 데이터와 유사도 비교를 위한 작업
1-4. Curating_Total_Check
For_this_ipynb_[Download]
DATA - 큐레이팅 전체 상세설명 크롤링 + 토큰화.
- 큐레이팅 글 / 큐레이팅 번호+작성날짜 / 토큰화 DataFrame.






[ CAR DAMAGE DETECTION ]

- CAR_DAMAGE_DETECTION_PPT

업로드예정