- Θα πρέπει να υλοποιηθεί μία web-based εφαρμογή η οποία θα δίνει τη δυνατότητα να αναζητούμε πληροφορίες από τα δεδομένα των ομιλιών. Η εφαρμογή αυτή θα πρέπει να προσφέρει τις δυνατότητες μιας μηχανής αναζήτησης για το συγκεκριμένο σύνολο δεδομένων.
- Ανά ομιλία, ανά βουλευτή και ανά κόμμα, θα πρέπει να βρούμε τις σημαντικότερες λέξεις-κλειδιά(keywords) και πως αυτές αλλάζουν στο χρόνο.
- Δεδομένων όλων των ομιλιών, πρέπει να ανιχνεύσουμε ομοιότητες ανά ζεύγη μεταξύ των μελών του κοινοβουλίου. Συγκεκριμένα, πρέπει να βρούμε έναν τρόπο να εξαγάγουμε ένα διάνυσμα χαρακτηριστικών για κάθε μέλος και στη συνέχεια να εκτελέσουμε ομοιότητες ανά ζεύγη για να μπορέσουμε να ανιχνεύσουμε τα top-k ζεύγη με τον υψηλότερο βαθμό ομοιότητας (όπου k είναι μια παράμετρος).
- Λαμβάνοντας υπόψη όλες τις ομιλίες, θα πρέπει να χρησιμοποιήσουμε την τεχνική LSI, ώστε να βρούμε τις σημαντικότερες θεματικές περιοχές και να εκφράσουμε την κάθε ομιλία ως διάνυσμα σε κάποιον πολυδιάστατο χώρο.
- Μπορούμε να χρησιμοποιήσουμε ομαδοποίηση στις ομιλίες έτσι ώστε να σχηματίσουμε ομάδες ομιλιών έτσι ώστε οι ομιλίες της ίδιας ομάδας να έχουν μεγάλη ομοιότητα ?
- Εδώ θα πρέπει η κάθε ομάδα να προτείνει και να υλοποιήσει μία συγκεκριμένη εργασία που θα έχει ενδιαφέρον και θα δίνει στην έξοδο ενδιαφέροντα αποτελέσματα.
- Τα δεδομένα έχουν συγκεντρωθεί από τον σύνδεσμο
- Περισσότερες πληροφορίες σχετικά με τα δεδομένα στο ακόλουθο αποθετήριο Github
- nltk tutorial from realpython