paneldata/data-specification

Vorschlag: publications.csv

Closed this issue · 1 comments

Datei: publications.csv

Die Datei publications.csv soll folgende Spalten enthalten:

study, name, title, author, year, abstract, cite, type, studies, url, doi

Beispiel

study name title author year abstract cite type studies url doi
soep-core 468 Savings, Remittances, and Return Migration Merkle, Lucie; Klaus F. Zimmermann 1992 Merkle, Lucie; Klaus F. Zimmermann. 1992: Savings, Remittances, and Return Migration. Economics Letters 38 (1), 77-81 02 SSCI Journal SOEP-Core 10.1016/0165-1765(92)90165-U

Regel-Vorschlag

schema:
  fields:
    - name: study
      title: Foreign key to Study
      type: string
      format: default
      constraints:
        required: true
        maxLength: 255

    - name: name
      title: Name of the Publication
      type: string
      format: default
      constraints:
        required: true
        maxLength: 255

    - name: title
      title: Title of the Publication
      type: string
      format: default
      constraints:
        required: true

    - name: author
      type: string
      format: default

    - name: year
      type: year

    - name: abstract
      type: string
      format: default

    - name: cite
      type: string
      format: default

    - name: type
      type: string
      format: default

    - name: studies
      type: string
      format: default

    - name: url
      type: string
      format: uri

    - name: doi
      type: string
      format: default
      constraints:
        # https://www.crossref.org/blog/dois-and-matching-regular-expressions/
        pattern: "^10.\\d{4,9}/[-._;()/:A-z0-9]+$"

  primaryKey:
    - study
    - name

Das Feld "doi" soll eine DOI enthalten, ich habe hier den regulären Ausdruck von der Crossref-Seite verwendet. Das geht schon ganz gut. Aber der ist auch ziemlich streng.

Ebenso streng ist "format: uri" bei "url". Das fängt Dinge ab, die klar keine URLs sind. Allerdings werden auch URLs mit "www." ohne "http://" davor als fehlerhaft markiert.