DeepCV-project

Projet de dominante Infonum CentraleSupélec en collaboration avec Illuin Technology.

Installation

Téléchargement, requirements & model

Pour installer les modules python requis, lancer la ligne de code suivante :

$ pip install -r requirements.txt

Pour le modèle nous avons fait un lien WeTransfer : https://we.tl/t-4BRXsc3hLV. Si le lien n'est plus valable, veuillez envoyer un mail à l'adresse suivante : wallerand.peugeot@student-cs.fr.

Pour que le scraper web fonctionne, il faut avoir un chromedriver adapté à votre version de chrome. Voici un lien vers lequel diverses versions de chromedriver sont disponibles : https://chromedriver.chromium.org/downloads.

Utilisation

Pour ouvrir la page web Streamlit correspondante à l'outil développé, lancer la ligne de code suivante :

streamlit run streamlit_demo.py

📦 Structure

.
│   .gitignore
│   README.md
│   requirements.txt
│   streamlit_demo.py
│   streamlit_pytrends.py
│   streamlit_utils.py
│
├───chromedriver_win32
│       chromedriver.exe
│
├───html_maps
│
├───legacy
│       bs4_scraping.ipynb
│       bs4_scraping.py
│       nbc_df.csv
│       nlp_exploration.ipynb
│       nlp_IE.ipynb
│       scarp_NBC.txt
│       scraping_trafilatura.py
│       selenium.ipynb
│
├───model
│       longformer_finetuned
│
├───notebooks
│       articles_timeseries.ipynb
│       BERT_QA.ipynb
│       classify_relevance.ipynb
│       fine_tuning_NER.ipynb
│       google_news_scraping.ipynb
│       metrics_model_evaluation.ipynb
│       pytrend.ipynb
│       scope_labelling.ipynb
│       scrap_n_zip.ipynb

Le dossier legacy regroupe un ensemble de tests que nous avions effectués, notamment au niveau du scraping web, mais qui ne se révèlent pas nécesasirement utiles pour la construction du projet en lui même.

Les dossiers chromedriver_win32 ainsi que model contiennent les éléments décrits dans la partie installation.

Le dossier html_maps contiendra les maps à afficher sur la page web, il n'est pas inclu dans le repository, il faut donc l'ajouter.

🗺️ Roadmap

Step 1 (Novembre / Décembre) : Explorer et cadrer le sujet du projet - Benchmarker les outils de scraping - Sélectionner les 1ers sujets climatiques et les 1ères sources
Step 2 (Janvier) : Premier pipeline pour scrapper un sujet donnée sur une source donnée - Analyse NLP sur les premières données
Step 3 (Février) : Généralisation à d’autres sources et sujets - Classifier automatiquement par type de données - Affiner l’analyse des données extraites
Step 4 (Mars) : Continuer à étendre le spectre d’utilisation de l’outil - Développer une 1ère interface utilisateur
Step 5 (Avril) : Finaliser les tâches en cours - Identifier les potentiels next steps - Formaliser la présentation du travail réalisé sur l’année

Divers liens et ressources utilisés lors de ce projet

ThomasLef/Projet-Illuin

DeepCV-project

Installation

Téléchargement, requirements & model

Utilisation

📦 Structure

🗺️ Roadmap

Divers liens et ressources utilisés lors de ce projet

Bases du NER

Fine tuning de NER

Question answering

Score de pertinence

Classification In-Scope Hors-Scope

Analyse tendance - Série temporelle