For English, please see below
==================================================================
==================================================================
Ce référentiel contient des informations sur le corpus "bitext" de SEDAR. Plus d'informations sur ce dernier sont disponibles sur la publication scientifique (lien (en anglais))
Abbas Ghaddar and Philippe Langlais
SEDAR: Large Scale French-English Financial Domain Parallel Corpus
In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020)
Or arxiv
L'Autorité des Marchés Financiers (Québec) met à disposition ce corpus pour la communauté académique. Pour obtenir l'accès, merci de remplir ce formulaire et de le renvoyer à fintech@lautorite.qc.ca. Nous étudierons votre demande et, si acceptée, nous vous enverrons le lien pour l'obtention du corpus.
Pour un aperçu du contenu des données, merci de voir les "notebooks" de démonstration (lien).
Version | Date de publication | Période couverte | Nombre de paires de phrases |
---|---|---|---|
0 | 2020\01\01 | 1997\01\01 - 2018\10\01 | 12 millions |
Merci de citer le papier suivant lors de l'utilisation du corpus:
@inproceedings{ghaddar-langlais-2020-sedar,
title = "{SEDAR}: a Large Scale {F}rench-{E}nglish Financial Domain Parallel Corpus",
author = "Ghaddar, Abbas and
Langlais, Phillippe",
booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference",
month = may,
year = "2020",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://www.aclweb.org/anthology/2020.lrec-1.442",
pages = "3595--3602",
language = "English",
}
or arxiv citation
Pour plus d'informations, merci de contacter fintech@lautorite.qc.ca
==================================================================
==================================================================
This repository contains information on the release of SEDAR bitext cropus, which is presented in the following research publication (link)
Abbas Ghaddar and Philippe Langlais
SEDAR: Large Scale French-English Financial Domain Parallel Corpus
In Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020)
Or arxiv
We are pleased to now make SEDAR available to the community for academic research purposes. To access the corpus, please fill the following form and to send it to fintech@lautorite.qc.ca. We will do a review of your proposal and, if acceptable, we will release the corpus to you.
For an overview of the content of SEDAR and how files are structured see this notebook.
Version | Release date | Data date range | Total sentence pairs |
---|---|---|---|
0 | 2020\01\01 | 1997\01\01 - 2018\10\01 | 12 millions |
Please cite the following paper when using our corpus:
@inproceedings{ghaddar-langlais-2020-sedar,
title = "{SEDAR}: a Large Scale {F}rench-{E}nglish Financial Domain Parallel Corpus",
author = "Ghaddar, Abbas and
Langlais, Phillippe",
booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference",
month = may,
year = "2020",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://www.aclweb.org/anthology/2020.lrec-1.442",
pages = "3595--3602",
language = "English",
}
or arxiv citation
For more information, contact fintech@lautorite.qc.ca