/court_decisions_jurimetric_analysis

Analysis of Court Decisions using Machine Learning with Weak Supervision

Primary LanguageJupyter Notebook

Analysis of Court Decisions using Machine Learning with Weak Supervision

Files from my master's degree project. Data files are not included due to data protection policies.

Abstract

There is growing concern that the Brazilian Labor Court is too inclined to protect employees over employers. In addition, the companies themselves in their employee-employer relations are unsure of what decisions will be taken by magistrates in their legal proceedings.

On the other hand, new technological solutions are being implemented in order to increase the Brazilian judicial efficiency, such as, for example, the Electronic Judicial Process (PJe). This system allows the complete processing of the judicial process digitally, currently containing millions of lawsuits in process. However, the exploration of this mass of court documents is not trivial as such documents are available in plain text without the necessary enrichment to extract valuable knowledge.

Thus, this research used Supervised Machine Learning techniques in order to verify if it would be possible to observe a possible tendency to judge of certain courts using computational methods. Thus, a gold standard database was developed, which was used for testing, and a training database was also automatically developed using the Weak Supervision technique. Afterwards, a court decision base of more than 20 thousand documents was classified using a model trained with the Gradient Boosting algorithm which obtained 92% in the F1 macro metric. Thus, it was possible to observe a statistical difference in the proportion of judgments in favor of employees in both courts.



[Portuguese version]

Análise de decisões judiciais utilizando Aprendizado de Máquina com Supervisão Fraca

Arquivos do projeto de mestrado. Não inclui arquivos de dados devido a questões legais de proteção de dados.

Resumo

Existe uma preocupação crescente de que a Justiça do Trabalho brasileira esteja demasiadamente inclinada a proteger empregados em relação a empregadores. Além disso, as próprias empresas nas suas relações empregado-empregador encontram-se inseguras em relação a quais decisões serão tomadas pelos magistrados em seus processos judiciais.

Por outro lado, novas soluções tecnológicas estão sendo implementadas com intuito de aumentar a eficiência judiciária brasileira, como, por exemplo, Processo Judicial Eletrônico (PJe). Esse sistema permite a tramitação completa do processo judicial de maneira digital, contendo atualmente milhões de ações em tramitação. Entretanto, a exploração dessa massa de documentos judiciais não é trivial, pois tais documentos encontram-se disponibilizados em texto puro sem o enriquecimento necessário para a extração de conhecimento de valor.

Dessa maneira, a presente pesquisa empregou técnicas de Aprendizado de Máquina Supervisionado a fim de verificar se seria possível observar eventual tendência de julgamento de determinados tribunais utilizando métodos computacionais. Desse modo, foi desenvolvida uma base de dados padrão-ouro a qual foi utilizada para a realização de testes, e também foi desenvolvida automaticamente uma base de treinamento por meio de técnica de Supervisão Fraca. Após, uma base de decisões judiciais de mais de 20 mil documentos foi classificada utilizando um modelo treinado com o algoritmo Gradient Boosting o qual obteve 92% na métrica F1 macro. Assim, foi possível observar diferença estatística na proporção de julgamentos a favor dos empregados em ambos os tribunais.