liafacom/faquad

Wrong answers in the validation dataset

lersouza opened this issue · 1 comments

Hey guys! Incredible work with FaQuAD! Congrats.

I'm working with this dataset and I found out that 3 question in the dev set have incorrent answers at the position 0.
Here is an example:

{
          "context": "caberá à banca examinadora atribuir ao acadêmico uma nota final de zero vírgula zero (0,0) a dez vírgula zero (10,0), resultante da média aritmética das notas emitidas pelos membros da banca; e considerar aprovado aquele acadêmico que obtiver a nota mínima final nove (9,0). caberá ao coordenador de curso informar ao acadêmico, em até dez (10) dias úteis antes da data prevista para avaliação, o conteúdo e as formas de avaliação com os respectivos pesos, além de data(s), horário(s) e local(is) de realização do(s) exame(s). se aprovado na avaliação, o acadêmico obterá dispensa de cursar a disciplina, sendo registrada no seu histórico escolar a nota conferida pela banca examinadora e a carga horária total da disciplina. o registro no siscad deverá ser feito pela coordenação do curso do acadêmico.",
          "qas": [
            ...
            {
              "answers": [
                {
                  "answer_start": 0,
                  "text": "banca"
                },
                {
                  "answer_start": 9,
                  "text": "banca examinadora"
                },
                {
                  "answer_start": 0,
                  "text": "caberá à banca examinadora atribuir ao acadêmico uma nota final de zero vírgula zero (0,0) a dez vírgula zero (10,0)"
                }
              ],
              "id": "84b0eef8870841c5bf638cd3e54b0284",
              "question": "quem dá a nota final ao acadêmico?"
            }

The first answer points to a start at position 0, with text "banca". But position 0 referes to "caberá". Is that an intended behaviour?

Hi Leandro, thank you for pointing this out. This dataset was created by a student of mine @heliohfs under my supervision. So, I'm not completely sure but this seems like a problem. We are not maintaining the dataset. But you can surely correct this in your copy.