Projeto para extrair texto dos laudos do CENIPA
Esse projeto tem como objetivo extrair dados não estruturados dos fatores contribuintes de acidentes aeronáuticos registrados pelo CENIPA (centro de investigação e prevenção de acidentes aeronáuticos). Para isso, foi utilizado a leitura dos fatores contribuíntes no banco de dados PostgreSQL, e extraído as classes gramaticais das frases para aplicação das regras definidas.
- Python >= 3.5
- spacy >= 2.0.12
- psycopg2 >= 2.7.5
- PostgreSQL >= 10
Para executar o projeto terá que restaurar a ultima base que está dentro da pasta bkp, dentro do PostgreSQL e rodar o script main.py.
Caso houver algum problema no restore da base, poderá baixar os arquivos do site http://dados.gov.br/dataset/ocorrencias-aeronauticas-da-aviacao-civil-brasileira e importar os dados para dentro do banco manualmente.
postgres@seupc:~$ psql
postgres=# create database cenipa;
CREATE DATABASE
postgres=# \l
Lista dos bancos de dados
Nome | Dono | Codificação | Collate | Ctype | Privilégios de acesso
-----------+----------+-------------+-------------+-------------+-----------------------
cenipa | postgres | UTF8 | pt_BR.UTF-8 | pt_BR.UTF-8 |
postgres=# \q
postgres@seupc:~$ pg_restore -d cenipa bkp/20181022214717_cenipa.gz >> restore.log 2>&1
python3 main.py