/esr-lexicon

Agrégateur de dictionnaires d'entités nommées de l'ESR

Primary LanguageRustGNU Affero General Public License v3.0AGPL-3.0

ESR lexicon

Project Status: Active – The project has reached a stable, usable state and is being actively developed. Build Status Coverage Status License: AGPL v3 contributions welcome dependency status Linux OSX

ESR lexicon permet de constituer des dictionnaires d'entités nommées relatifs aux structures de recherche françaises :

  • Établissements de l'ESR (libellés, sigles)
  • Laboratoires de recherche (libellés, sigles)
  • Autres structures de recherche (libellés, sigles)
  • Écoles doctorales
  • Noms et prénoms des chercheurs
  • Noms des unités de recherche
  • Noms des départements de recherche

ESR lexicon récupère ses informations depuis HAL et ScanR.

Téléchargement

ESR lexicon est précompilé pour Linux et Mac.

  • Dernière version pour Linux
  • Dernière version pour OSX

Usage

$ ./esr-lexicon -h

ESR lexicon 0.2.0
Mathis EON. <eon@abes.fr>
Build NER dictionaries

USAGE:
    esr-lexicon [FLAGS] --config <FILE> --file <FILE> --jq <EXPRESSION> --output <FILE> --url <URL>

FLAGS:
    -h, --help       Prints help information
    -s, --silent     Silent output
    -V, --version    Prints version information

OPTIONS:
    -c, --config <FILE>      Sets a custom config file
    -f, --file <FILE>        Input file
    -j, --jq <EXPRESSION>    Expression used for parsing data
    -o, --output <FILE>      Output file
    -u, --url <URL>          Input URL

En utilisant un fichier de configuration

./esr-lexicon -c config.json

En ligne de commande exclusivement

./esr-lexicon -o scanr.structure.recherche -j '.["facet_groups"][0]["facets"]|map([.["name"]])| .[] | @tsv' -u "https://data.enseignementsup-recherche.gouv.fr/api/records/1.0/search/?dataset=fr-esr-repertoire-national-structures-recherche&rows=0&facet=libelle"

Utilisation des expressions jq

ESR lexicon utilise des expressions jq pour extraire les données json.

Utilisation de la pagination SolR

ERS lexicon suit automatiquement les curseurs SolR pour les requêtes utilisant la pagination avec cursorMark=*.