RUN_YOUTUBE, RUN_LINGUISTIQUE et RUN_CLASSIFICATION

RUN_YOUTUBE

YouCraw

YouCraw est un outils OpenSource pour récupérer les méta-données YouTube, basé sur l'API "YouTube Data API (v3)", et la sauvegarde de ces méta-données dans une base de donénes MongoDB.

Code Sources

Dans le dossier ExtractYoutube, vous trouvriez le code source en java, développé avec l'IDE NetBeans 8.1

Les méta-données disponibles

_id : l’identifiant de la vidéo
title : le titre de la vidéo
channelid : l’identifiant du canal
channeltitle : le titre du canal
datepub : la date de publication de la vidéo
description : la description de la vidéo
tags : une liste des mots liés à la vidéo
kind : le type par exemple youtube#video
defaultaudiolang : la langue par défaut de la vidéo
viewcount : le nombre du vue de la vidéo
likecount : le nombre des utilisateurs qui ont aimés la vidéo
dislikecount : le nombre des utilisateurs qui n’ont pas aimés la vidéo
commentscount : le nombre des commentaires
comments : une liste des commentaires :

author : l’auteur du commentaire
like : le nombre des utilisateurs qui ont aimés le commentaire
message : le contenu du commentaire

transcription : la transcription de la vidéo

Prérequis

OS Linux
MongoDB https://www.mongodb.com/download-center?filter=enterprise#enterprise
Youtube-DL https://rg3.github.io/youtube-dl/
JAVA 1.8 ou supérieur
Python 2.7 ou supérieur

Utilisation

Copier le dossier RUN_YOUTUBE dans votre machine
Création d'un compte Google sur le site https://developers.google.com/youtube/v3/getting-started
Récupération de fichier JSON qui contient le "clientId", "clientSecret"
Exécuter le script python "generateRefreshTokens.py" ou "getCredential.py" pour récupérer "refreshToken"
Modifier les paramètres dans le fichier "YouCraw.sh"

Lancer le Crawler

$ ./YouCraw.sh

RUN_LINGUISTIQUE

Le dossier RUN_LINGUISTIQUE contient des scripts en python et des modèles pour MaltParser (la construction des arbres syntaxique en dépendance), StanforNER (l'extraction des entités nommées).Ces scripts utilisent la base de données MongoDB et particulièrement la collection des méta-données pour construire d'autres collections linguistiques

Prérequis logiciel

OS Linux
MongoDB https://www.mongodb.com/download-center?filter=enterprise#enterprise
JAVA 1.8 ou supérieur
Python 2.7 ou supérieur
Maltparser http://www.maltparser.org/download.html
Stanford NER http://nlp.stanford.edu/software/CRF-NER.shtml
TreeTagger http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
SRILM http://www.speech.sri.com/projects/srilm/download.html
MorphSegmenter https://www-i6.informatik.rwth-aachen.de/~mansour/MorphSegmenter/

Prérequis librairies python

langdetect-1.0.6 https://pypi.python.org/pypi/langdetect?
Morfessor-2.0.2alpha3 https://pypi.python.org/pypi/Morfessor/2.0.2alpha3
nltk-3.2.1 https://pypi.python.org/pypi/nltk/3.2.1
numpy-1.9.3 https://pypi.python.org/pypi/numpy/1.11.2rc1
polyglot-master https://pypi.python.org/pypi/polyglot/16.7.4
pycld2-0.31 https://pypi.python.org/pypi/pycld2/0.31
PyICU-1.9.3 https://pypi.python.org/pypi/PyICU/1.9.3
pymongo-3.3.0 https://pypi.python.org/pypi/pymongo/3.3.0
six-1.10.0 https://pypi.python.org/pypi/six/1.10.0
wheel-0.29.0 https://pypi.python.org/pypi/wheel/0.30.0a0
JEIBA https://pypi.python.org/pypi/jieba/

Lancer les scripts

Copier tous les modèles de MaltParser (arabic1.3.mco, chinese1.3.mco, english1.3.mco, french1.3.mco, russian1.3.mco, german1.3.mco) dans le dossier RUN_LINGUISTIQUE
Lancer le script ./YouDict.sh pour générer un dictionnaire (Dictionary_Sentence.conll) pour aider faire la segmentation de la transcription, sinon on crée un fichier vide et la segmentation devra des sauts des lignes. Avant de lancer le script modifier les paramètres (nom du serveur de MongoDB, nom de la base de données, le nom de la collection des méta données)
Lancer le script getIDS.py pour récupérer les IDs des vidéos dans un fichier par exemple xaa (voir le script getIDS)
Modifier les parametres dans le script YouCorpus.sh puis lancer le avec ./YouCorpus.sh
Modifier les paramètres dans le script YiuLing1.sh puis lancer le avec ./YiuLing1.sh

RUN_CLASSIFICATION

Ce dossier contient tous les scripts pour faire la classification non supervisé et supervisé

Prérequis

Installer R
Installer Kmeans et CAH sous R
Installer tm et topicmodels pour la méthode LDA

Les données d'apprentissage

Modifier les paramètres DataTrain.sh et lancer le, pour générer les données d'apprentissage

Tester les scripts R

Tester les scripts de classfication non supervisé et supervisé avec les données d'appretissage

Author

Saber.N

Mail

saber.lisis@gmail.com

Licence

OpenSource

burgerindividual/YoutubeWhistleblower

RUN_YOUTUBE, RUN_LINGUISTIQUE et RUN_CLASSIFICATION

RUN_YOUTUBE

YouCraw

Code Sources

Les méta-données disponibles

Prérequis

Utilisation

Lancer le Crawler

RUN_LINGUISTIQUE

Prérequis logiciel

Prérequis librairies python

Lancer les scripts

RUN_CLASSIFICATION

Prérequis

Les données d'apprentissage

Tester les scripts R

Author

Mail

Licence