/Projet-Illuin

Primary LanguageJupyter Notebook

DeepCV-project

made-with-python Open in Visual Studio Code

Projet de dominante Infonum CentraleSupélec en collaboration avec Illuin Technology.

Installation

Téléchargement, requirements & model

Pour installer les modules python requis, lancer la ligne de code suivante :

$ pip install -r requirements.txt

Pour le modèle nous avons fait un lien WeTransfer : https://we.tl/t-4BRXsc3hLV. Si le lien n'est plus valable, veuillez envoyer un mail à l'adresse suivante : wallerand.peugeot@student-cs.fr.

Pour que le scraper web fonctionne, il faut avoir un chromedriver adapté à votre version de chrome. Voici un lien vers lequel diverses versions de chromedriver sont disponibles : https://chromedriver.chromium.org/downloads.

Utilisation

Pour ouvrir la page web Streamlit correspondante à l'outil développé, lancer la ligne de code suivante :

streamlit run streamlit_demo.py

📦 Structure

.
│   .gitignore
│   README.md
│   requirements.txt
│   streamlit_demo.py
│   streamlit_pytrends.py
│   streamlit_utils.py
│
├───chromedriver_win32
│       chromedriver.exe
│
├───html_maps
│
├───legacy
│       bs4_scraping.ipynb
│       bs4_scraping.py
│       nbc_df.csv
│       nlp_exploration.ipynb
│       nlp_IE.ipynb
│       scarp_NBC.txt
│       scraping_trafilatura.py
│       selenium.ipynb
│
├───model
│       longformer_finetuned
│
├───notebooks
│       articles_timeseries.ipynb
│       BERT_QA.ipynb
│       classify_relevance.ipynb
│       fine_tuning_NER.ipynb
│       google_news_scraping.ipynb
│       metrics_model_evaluation.ipynb
│       pytrend.ipynb
│       scope_labelling.ipynb
│       scrap_n_zip.ipynb

Le dossier legacy regroupe un ensemble de tests que nous avions effectués, notamment au niveau du scraping web, mais qui ne se révèlent pas nécesasirement utiles pour la construction du projet en lui même.

Les dossiers chromedriver_win32 ainsi que model contiennent les éléments décrits dans la partie installation.

Le dossier html_maps contiendra les maps à afficher sur la page web, il n'est pas inclu dans le repository, il faut donc l'ajouter.

🗺️ Roadmap

  • Step 1 (Novembre / Décembre) : Explorer et cadrer le sujet du projet - Benchmarker les outils de scraping - Sélectionner les 1ers sujets climatiques et les 1ères sources

  • Step 2 (Janvier) : Premier pipeline pour scrapper un sujet donnée sur une source donnée - Analyse NLP sur les premières données

  • Step 3 (Février) : Généralisation à d’autres sources et sujets - Classifier automatiquement par type de données - Affiner l’analyse des données extraites

  • Step 4 (Mars) : Continuer à étendre le spectre d’utilisation de l’outil - Développer une 1ère interface utilisateur

  • Step 5 (Avril) : Finaliser les tâches en cours - Identifier les potentiels next steps - Formaliser la présentation du travail réalisé sur l’année

Divers liens et ressources utilisés lors de ce projet

Bases du NER

Fine tuning de NER

Question answering

Score de pertinence

Classification In-Scope Hors-Scope

Analyse tendance - Série temporelle