/movie_reviews_opinion_mining

Script di Opinion Mining realizzati per la Tesi di Laurea in Informatica e Tecnologie per la Produzione del Software: "Estensione di un Recommender System Conversazionale Mediante Tecniche di Opinion Mining".

Primary LanguageJupyter Notebook

movie_reviews_opinion_mining

Contenuto del repository

Notebook:

File:

  • stopwords: cartella contenente i file con le stop words utilizzate da opinion_mining.ipynb;
  • dataset_movie_list.txt: lista di ID dei film contenuti nel dataset con le recensioni, utilizzata da opinion_mining.ipynb (è possibile generare questo file utilizzando reviews_mapping.ipynb);
  • reviewsPerFilm.txt: lista contenente il numero di recensioni contenute nel dataset per ogni film, utilizzata da opinion_mining.ipynb (è possibile generare questo file utilizzando reviews_mapping.ipynb).

Istruzioni

Estrazione degli aspetti

Scaricare il contenuto del repository.
Aprire Colab e caricare il notebook opinion_mining.ipynb.
Caricare in una cartella in Google Drive i file dataset_movie_list.txt, reviewsPerFilm.txt, la cartella stopwords e il contenuto del dataset pre-elaborato: è necessaria solo la cartella splitted_dataset. splitted_sentiment e splitted_processed_tokens sono utili solo per evitare di dover eseguire la fase di Pre-processing. Se si vogliono eseguire solo le fasi di Aspect Extraction e Aspect Selection basta caricare splitted_processed_tokens.
Settare opportunamente le celle nel blocco Setup ed eseguire tutte le celle nel blocco Setup e nel blocco Funzioni.
Eseguire tutte le celle nei blocchi Pre-processing, Aspect Extraction e Aspect Selection se si vuole eseguire tutta la pipeline a partire dai file in splitted_dataset, altimenti eseguire solo le celle nei blocchi Aspect Extraction e Aspect Selection se si vuole eseguire la pipeline a partire dai file in splitted_processed_tokens.
N.B. se si vuole eseguire la fase di Pre-processing è opportuno utilizzare una Runtime provvista di GPU. È possibile farlo dal menu Runtime -> Cambia tipo di runtime -> Accelerazione hardware -> GPU.

Esecuzione completa a partire da un nuovo dataset

Utilizzare il notebook reviews_mapping.ipynb, adattando il codice nella cella "Mapping dei film in idMapping.txt con le review" in base alle caratteristiche del dataset utilizzato (il codice presente funziona solo con il dataset https://unibari-my.sharepoint.com/:u:/g/personal/cataldo_musto_uniba_it/EUbztek47bRMtkvsmb-a59IBH9i_qY0GV1VZdEibTU3rQw?e=Ggh45j).\ Successivamente utilizzare il notebook opinion_mining.ipynb per estrarre gli aspetti.