/gesetze-im-internet

A daily archive of https://www.gesetze-im-internet.de

Primary LanguagePythonBSD 3-Clause "New" or "Revised" LicenseBSD-3-Clause

Gesetze im Internet

Es werden die auf https://www.gesetze-im-internet.de veröffentlichten Gesetze, Rechtsverordnungen, etc. täglich archiviert. Das Archiv beschränkt sich auf XML-Dateien nebst Anhänge. (Die inhaltsgleichen PDF-, EPUB- und HTML-Dateien werden nicht gesichert.)

Die Daten sind im Branch 'Data' dieses Repositories abrufbar.

Unter Releases kann der Stand zu einem Tag ausgewählt, eingesehen und separat heruntergeladen werden.

Nutzung

Dieses Archiv enthält die jeweils aktuellen Gesetze seit dem 10. Juni 2019 in strukturiertem Format. Dieser historische Datensatz eignet sich insbesondere für die maschinelle Weiterverarbeitung und kann beispielsweise für quantitative Analysen des Rechts genutzt werden. Daher wird auf eine Weiterverarbeitung der archivierten Daten an dieser Stelle verzichtet.

Hintergrundinformationen

Das Log enthält eine Liste aller archivierten Versionen. Ebenfalls können die Commit-Messages im Branch 'Data' genutzt werden.

Ab Mai 2020 geschieht die Archivierung grundsätzlich täglich. Das Archiv reicht bis zum 10. Juni 2019 zurück. Für diesen Zeitraum stehen wöchentliche Versionen bereit. Die Archivierung geschieht transparent mittels Docker. Das genutzte Skript ist in diesem Repository im Master-Branch enthalten.

Archivierungsprozess

Die Archivierung basiert auf dem Inhaltsverzeichnis von Gesetze im Internet, das als XML-Datei bereitgestellt wird. (Siehe https://www.gesetze-im-internet.de/hinweise.html für nähere Informationen.) Es werden alle genannten Gesetze heruntergeladen und entpackt. Sofern sich ihr Inhalt geändert hat, wird die neue Version zum Repository hinzugefügt.

In seltenen Fällen ist eine im Inhaltsverzeichnis aufgeführte Datei auf dem Server nicht verfügbar. Solche eine Datei wird ausgelassen und unter data/not_found.txt im jeweiligen Commit dokumentiert. Typischerweise ist die Datei leer, da dieser Fehler bei der betreffenden Archivierung nicht aufgetreten ist.

Finden die Betreiber von gesetze-im-internet.de Fehler in den Daten (beispielsweise einen Tippfehler), werden diese auf der Webseite nachträglich korrigiert. Entsprechend wird bei der nächsten Archivierung die Fehlerkorrektur als neue Gesetzesversion in das Archiv übernommen. Im Archiv wird der Fehler jedoch nicht in bereits archivierten Versionen nachträglich korrigiert. Daher kann von einer neuen Dateiversion nicht zwingend auf eine Änderung der Rechtslage geschlossen werden, ohne die Änderung inhaltlich zu untersuchen. Neben einer Fehlerkorrektur wird eine neue Version häufig durch eine Aktualisierung des builddate (ein Attribut in der XML-Datei) verursacht.