TdP-prove-finali/Introduzione

Analisi e previsione violazioni dei confini Stati Uniti

Closed this issue · 11 comments

Studente proponente

Matia Crisafulli
S204508

Titolo della proposta

Analisi e previsione violazioni dei confini Stati Uniti

Descrizione del problema proposto

Si intende analizzare il database delle occorrenze delle violazioni illecite dei confini USA-Messico e USA-Canada e, contestualmente, generare un modello predittivo che permetta di effettuare previsioni sul prossimo anno.

Descrizione della rilevanza gestionale del problema

Il software permette l'analisi dei punti caldi e dei metodi utilizzati maggiormente per effettuare tali violazioni. Dal punto di vista gestionale potrebbe essere efficace per pianificare interventi di monitoraggio intensivo e per l'allocazione delle risorse.
La funzione di predizione è utile per scopi affini.

Descrizione dei data-set per la valutazione

Il data-set utilizzato è un database di una sola tabella reperito all'indirizzo : https://www.kaggle.com/divyansh22/us-border-crossing-data
composto dalle seguenti colonne
Port_name; State; Port Code; Border; Date; Mesure; Value
in ordine: nome del confine, Stato in cui si trova il confine, codice univoco del confine,Stato confinante (Messico o Canada), data dell'occorrenza, metodologia usata per effettuare la violazione (es. auto personale, treno, container, etc..), Value. Quest'ultima è una colonna che mi è poco chiara: è stata effettuata una richiesta di chiarimento di tale valore al proprietario del data base.

Descrizione preliminare degli algoritmi coinvolti

Ricerca dei dati secondo parametri selezionati dall'utente
Creazione di una struttura dati apposita in cui salvare le effrazioni
Creazione di un modello statistico delle occorrenze delle violazioni
Simulazione di eventi

Descrizione preliminare delle funzionalità previste per l’applicazione software

Interfaccia grafica suddivisa in due schede Analisi e Simulazione

Nella scheda Analisi sarà possibile selezionare il tipo di analisi che si vuole effettuare: Punti Caldi e Media Attraversamenti
Punti Caldi restituisce i dati relativi ai 5 Stati dove sono avvenuti maggiori attraversamenti, sarà inoltre prevista la selezione di appositi parametri con cui effettuare l'analisi: intervallo temporale, Stato confinante, Stato in cui si trova il confine e metodologia usata. Se tutti i campi dei parametri sono lasciati vuoti, si esegue l'analisi di tutto il database. Se solo alcuni campi sono vuoti, invece, quegli specifici parametri vengono trascurati.
Media Attraversamenti restituisce la media di attraversamenti in un periodo di tempo per ogni Stato in cui si trova il confine. Analogamente a punti caldi potranno essere usati i seguenti parametri con cui effettuare l'analisi: intervallo temporale, Stato confinante ,Stato in cui si trova il confine e metodologia usata.Se tutti i campi dei parametri sono lasciati vuoti, si esegue l'analisi di tutto il database. Se solo alcuni campi sono vuoti, invece, quegli specifici parametri vengono trascurati.

Nella scheda Simulazione sarà possibile selezionare i seguenti parametri su cui effettuare una simulazione: numero di simulazioni, Stato confinante, Stato in cui si trova il confine e metodologia usata.
Sarà possibile inoltre lasciare vuoto il campo metodologia usata; in questo caso il sistema trascura il parametro.
Una volta cliccato il bottone effettua analisi, dopo aver settato correttamente i parametri, il Software restituirà i dati relativi alla previsione di ciascun mese per quel determinato confine e quella determinata modalità qualora selezionata.

Il problema proposto ed il data-set sono adeguati.
La parte di Analisi va bene. Mi è meno chiaro cosa intendi fare nella parte di Simulazione... sulla base di quali informazioni e di quale modello pensi di prevedere gli attraversamenti futuri? Ci sono dei parametri (azioni possibili compiute dalla forze di polizia, o fattori che possono incrementare/decrementare il fenomeno) di cui la simulazione tiene conto, in modo da poter funzionare come strumento di indagine/analisi sul fenomeno?

Ti chiederei di precisare meglio questa parte.

Ultima nota: manca il tuo nome completo.

Il problema proposto ed il data-set sono adeguati.
La parte di Analisi va bene. Mi è meno chiaro cosa intendi fare nella parte di Simulazione... sulla base di quali informazioni e di quale modello pensi di prevedere gli attraversamenti futuri? Ci sono dei parametri (azioni possibili compiute dalla forze di polizia, o fattori che possono incrementare/decrementare il fenomeno) di cui la simulazione tiene conto, in modo da poter funzionare come strumento di indagine/analisi sul fenomeno?

Ti chiederei di precisare meglio questa parte.

Ultima nota: manca il tuo nome completo.

Buonasera Professore,
non ho previsto azioni da parte delle forze dell'ordine, ha qualche suggerimento su come potrei inserirle nel modello?

Per quanto riguarda la simulazione pensavo di risalire ad un modello statistico, con cui poi effettuare la simulazione, a partire dai dati in mio possesso; vorrei verificare se i dati seguono una distribuzione statistica, e in tal caso usarla come base per le simulazioni.

Rimango disponibile per qualunque modifica e suggerimento.

Grazie per la disponibilità

L'impressione è che ciò che chiami "simulazione" sia semplicemente il calcolo numerico dell'evoluzione di un modello numerico predefinito. Non mi pare che una simulazione ad eventi discreti sia adatta, visto che non mi pare che ci siano degli "eventi" di cui tenere conto (ma solo l'evoluzione di un modello statistico).

Devi entrare più nel concreto e capire cosa vuoi fare / che cosa abbia senso fare.

Chiedo scusa per il ritardo con cui le rispondo.

Ho fatto un po' di chiarezza, sarebbe disponibile per una consulenza? Anche in videoconferenza, vorrei sottoporle qualche dubbio.

La ringrazio

Riesci ad inviarmi una versione "rivista" della proposta, così è più facile discutere sugli eventuali dubbi? Puoi aggiungerla qui sotto come nuovo post

Nella scheda Simulazione sarà possibile selezionare i seguenti parametri su cui effettuare una simulazione: numero di simulazioni, numero di agenti sorveglianti, confine.
La simulazione prevede di valutare l'impatto di un incremento di sorveglianza nel confine specificato.
Il modello della simulazione funzionerà nel seguente modo: una volta selezionato il numero di agenti che monitorerarro il confine, verrà definito un flusso di arrivo distribuito secondo una distribuzione di Poisson( su questo punto non sono molto sicuro ed è qui che ho il dubbio di effettiva utilità), gli agenti che monitorano il bordo saranno quindi caratterizzati da una variabile di stato il cui valore potrà essere vigile o non disponibile, quando c'è almeno un agente vigile viene rilevata l'infrazione e contestualmente l'agente passa da vigile a non disponibile (per un certo periodo di tempo non ancora specificato). Il sistema dunque si propone di monitorare l'efficienza di un incremento di monitoraggio al confine restituendo poi come output il numero di fermati e il numero di infrazioni su cui non si è riusciti ad intervenire.

Un ulteriore dubbio, risiede nel fatto che effettivamente il database su cui sto lavorando di per se ha solo dati relativi ai rilevamenti, quindi forse non è utile al fine pratico.

Aggiungo che vorrei riuscire a portare avanti questo progetto per cui sono assolutamente aperto a qualunque modifica o consiglio. Vorrei fare al meglio questo progetto.

la ringrazio per la disponibilità.

Scusa per il ritardo nella proposta.
Mi pare che la simulazione dell'arrivo delle persone, e la simulazione dello stato del vigile, sia interessante.
Però non credo che il data-set che hai identificato contenga le informazioni necessarie a modellare questo fenomeno. (non abbiamo i dati degli ingressi legali, o degli ingressi sfuggiti al controllo; inoltre non abbiamo nemmeno il numero di agenti per ciascuna dislocazione).
Come possiamo conciliare i dati disponibili con il tipo di simulazione?

Chiedo scusa per il ritardo, tra tirocinio e sessione sono rimasto un po' indietro. Spero di essere ancora in tempo!
Ho pensato a questo punto di fare la seguente simulazione, al fine di trovare le variabili mancanti, simulare i possibili scenari che riportino alle rilevazioni ottenute.
Procederei in questo modo:
Data la media di rilevazioni di un confine, negli ultimi 5 anni, assumendo il flusso di arrivo mediante una distribuzione di poisson e assumendo che servano 30 minuti per rilevare l'infrazione; procedendo a ritroso dovrei riuscire a trovare una fascia di valori per cui il flusso di arrivo ed il numero di agenti sia plausibile e rientri in range di efficienza assegnata come parametro iniziale della simulazione.
Mi faccia sapere cosa ne pensa.

Grazie

Scusa per il ritardo nella risposta.
Quindi faresti una doppia simulazione? una per calcolare/stimare i parametri mancanti, e l'altra per valutare l'effetto dei sorveglianti?
Mi sembra che possa andare, ma con tutte le modifiche intercorse ti chiederei di provare a riscrivere l'intera proposta (corrretta nei punti discussi), così abbiamo un riferimento chiaro dell'obiettivo del lavoro.

Direi di incollare l'intera proposta corretta in un commento qui sotto, così la rileggiamo un'ultima volta.

Dopo 4 mesi di inattività, ti chiederei di confermare se intendi ancora proseguire con la proposta, ed in caso affermativo di riscriverla interamente da capo (con le modifiche discusse nei messaggi precedenti).
Lascio ancora aperta questa issue per circa un mese, se non ci saranno sviluppi la considero 'abbandonata' (il che non impedisce di aprirne un'altra, ovviamente).