/FilRouge

Le travail présenté dans ce rapport entre dans le cadre d’un projet académique dont l’objectif est d’utiliser la science des données afin de proposer un modèle capable d’expliquer et ou de prédire une/plusieurs toxicité(s) à l’aide des données fournies par les oncologues. Le principal défi est de bien comprendre les données et d’assurer un bon pré-traitement de données avant d’attaquer la partie analyse et prédiction. Je propose donc une solution complète qui commence par le nettoyage des données à l’aide de plusieurs techniques de préparation des données avant de les analyser. Cela fournit une base solide et fiable pour m’aider dans les prochaines phases de notre projet. Ensuite, je propose deux modèles d’apprentissage automatique : le modèle des forêts aléatoires et le modèle SVM, deux modèles de classification supervisée très utilisés dans le domaine médical. Ces méthodes ont été testées sur l’ensemble de données déjà nettoyé dans l’étape précédente et évaluées par des outils de mesures de performances que je les considère strictes afin d’avoir un résultat précis. Finalement, je résume et présente des perspectives de chacune de mes réalisations.

Résumé

Le travail présenté dans ce rapport entre dans le cadre d’un projet académique dont l’objectif est d’utiliser la science des données afin de proposer un modèle capable d’expliquer et ou de prédire une/plusieurs toxicité(s) à l’aide des données fournies par les oncologues. Le principal défi est de bien comprendre les données et d’assurer un bon pré-traitement de données avant d’attaquer la partie analyse et prédiction. Je propose donc une solution complète qui commence par le nettoyage des données à l’aide de plusieurs techniques de préparation des données avant de les analyser. Cela fournit une base solide et fiable pour m’aider dans les prochaines phases de notre projet. Ensuite, je propose deux modèles d’apprentissage automatique : le modèle des forêts aléatoires et le modèle SVM, deux modèles de classification supervisée très utilisés dans le domaine médical. Ces méthodes ont été testées sur l’ensemble de données déjà nettoyé dans l’étape précédente et évaluées par des outils de mesures de performances que je les considère strictes afin d’avoir un résultat précis. Finalement, je résume et présente des perspectives de chacune de mes réalisations.

Les informations relatives aux patients traîtés sont strictement confidentielles et ne peuvent en aucun cas être transmises ou divulguées pour cela je ne peux pas montrer le code du traitement.