/Datendubletten_entfernen_mit_Python

Quellcode zum Praxis-Artikel von Dr. Roland Pleger, erschienen auf Heise+ und im iX-Magazin 09/2022

Primary LanguageJupyter Notebook

Datendubletten entfernen mit Python

Quellcode zum Praxis-Artikel von Dr. Roland Pleger, erschienen auf Heise+ und im iX-Magazin 09/2022.

iX-tract

  • Doppeleinträge in Datenbanken und anderen Datenquellen aufgrund von Fehlern bei der Dateneingabe sind ein Ärgernis.
  • Das Entfernen von Dubletten kann viel Handarbeit erfordern, will man keine ähnlichen Einträge aus Versehen automatisiert löschen.
  • In Python helfen die Bibliotheken difflib, RapidFuzz und Record Linkage beim Erkennen von ähnlichen Wörtern oder Falschschreibungen.
  • Für Pandas-Dataframes analysiert Record Linkage die Ähnlichkeit mehrerer Attributkombinationen und entfernt Dubletten auf Wunsch mit wenig Rechenaufwand